卷,卷起来了!
📢 本周 AI 快讯 | 1 分钟速览🚀
1️⃣ 🚀 DeepSeek 发布 V3.1-Terminus :Agent 性能提升 28%,HLE 测试跃升全球第三,仅次于 Grok 4
和 GPT-5
,SimpleQA 准确率达 96.8%。
2️⃣ 💰 阿里云栖大会七连发 :3800 亿 AI 基建投资起步,万亿参数 Qwen3-Max
对标 GPT-5,AIME 25 和 HMMT 数学测试满分 100 分。
3️⃣ 🖥️ Kimi 推出 OK Computer :基于 K2
模型的 Agent 模式,可直接开发多页面网站、处理百万行数据、制作可编辑 PPT。
4️⃣ 🌐 字节豆包翻译大模型 :Doubao-Seed-Translation
支持 28 语言互译,性能比肩 GPT-4o
,百万字符仅 1.20 元。
5️⃣ 📱 OpenAI 发布 ChatGPT Pulse :AI 从被动问答转向主动服务,为 Pro 用户生成个性化每日简报,CEO 称其为"最喜欢的功能"。
6️⃣ 🤖 OpenAI 内测 GPT-Alpha :基于 GPT-5
模型打造,具备高级推理和工具使用能力,可执行网页浏览、图像编辑等复杂任务。
7️⃣ 🎨 谷歌推出 Mixboard :AI 创意画板工具,集成 Nano Banana
图像编辑模型,支持文本生成原创视觉内容。
8️⃣ 🤖 谷歌发布 AI 版 Androidify :结合 Gemini 2.5 Flash
、Imagen 3
和 Veo 3
模型,自拍秒变个性化安卓机器人。
9️⃣ 🔄 微软 365 引入 Anthropic :Claude Sonnet 4
和 Claude Opus 4.1
正式入驻 Copilot,打破 OpenAI 独家局面。
🔟 📹 Meta 推出 Vibes 平台 :首个纯 AI 生成内容的短视频平台,不支持上传个人视频,引发用户争议。
01|DeepSeek V3.1-Terminus 登场:HLE 测试跃升全球第三,Agent 性能提升 28%
9 月 22 日,DeepSeek 正式发布 V3.1-Terminus
版本更新,这是对 8 月发布的 V3.1
版本的优化,重点解决用户反馈的两大痛点。新版本显著改善了语言混杂问题,有效减少了中英文无规律切换和随机乱码现象,这一改进对跨语言应用场景尤为重要。在 Agent 能力方面,Code Agent
和 Search Agent
获得实质性提升------BrowseComp 网页导航测试从 30.0 跃升至 38.5,Terminal-bench 命令行交互从 31.3 提升至 36.7,SWE Verified 软件工程验证达到 68.4,SimpleQA 问答准确率更是飙升至 96.8。

技术架构上,Terminus
延续了 V3
系列的混合专家(MoE)设计,671B 总参数中激活 37B,支持高达 128K tokens 上下文。该版本保留了双模式切换能力:thinking mode 用于复杂多步推理,non-thinking mode 则专注快速响应。值得注意的是,在备受关注的 Humanity's Last Exam 基准测试中,Terminus
从 15.9 分跃升至 21.7 分,仅次于 Grok 4
(25.4)和 GPT-5
(25.3),位列全球第三。API 定价维持竞争优势,缓存命中时输入仅 0.5 元/百万 tokens,输出 12 元/百万 tokens。模型权重已在 Hugging Face 开源(MIT 协议),为开发者提供了一个在稳定性与成本效益之间取得平衡的实用选择。
02|阿里云栖大会"七连发":3800 亿 AI 基建投资起步,万亿参数 Qwen MAX 对标 GPT-5
9 月 24 日,在 2025 云栖大会上,阿里集团董事兼 CEO 吴泳铭宣布正在推进三年 3800 亿元的 AI 基础设施建设计划,并将持续追加更大投入。会上阿里通义发布 6 款新模型 + 1 个全新品牌,在模型智能、多模态能力、Agent 工具调用等方面实现多维突破。其中旗舰模型 Qwen3-Max
以 1.2 万亿总参数、120 亿激活参数的混合专家架构(MoE)刷新行业纪录,预训练数据量达 36 万亿 tokens,在数学推理测试 AIME 25 和 HMMT 中斩获满分 100 分,成为全球首个达成此成就的大模型;在 SWE-Bench Verified 编程测试中以 69.6 分登顶,超越 Claude Opus 4
和 DeepSeek-V3.1
。

除了 Qwen MAX
的性能突破,本次发布阵容堪称豪华。全模态模型 Qwen3-Omni
首次实现音、视、文多模态混合训练而各项能力不降反升,音视频能力狂揽 32 项开源最佳性能 SOTA。视觉理解模型 Qwen3-VL-235B-A22B
已正式开源,在 32 项核心能力测评中超过 Gemini-2.5-Pro
和 GPT-5
,能够像人一样操作手机和电脑界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchmark 上达到世界顶尖水平。图像编辑模型 Qwen-Image-Edit
实现了对图片中文字的精准编辑,支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作------真正做到"改字不崩脸、换装不走样"。
专项模型方面,编程模型 Qwen3-Coder
升级支持 256K 上下文,并强化了终端任务功能,Terminal Bench 性能大幅提升,推理速度更快、token 消耗更少。通义万相推出 Wan2.5-Preview
,首次实现音画同步,10 秒 1080P 24fps 视频直接配人声、音效、音乐,音画对齐效果接近电影感,时长从 5 秒提升至 10 秒,支持复杂镜头控制和结构化提示词输入。全新发布的语音大模型家族通义百聆涵盖语音识别大模型 Fun-ASR
和语音合成大模型 Fun-CosyVoice
,Fun-ASR
基于数千万小时真实语音数据训练而成,可实时处理 10 多种语言;Fun-CosyVoice
提供上百种预制音色,适用于客服、销售、直播电商等场景,目前通义百聆开源模型的下载量已超 5.6 亿。
03|Kimi 发布 Agent 模式 OK Computer,可开发网站、分析百万行数据
9 月 25 日,月之暗面正式推出 Kimi 全新 Agent 模式 OK Computer
(命名致敬 Radiohead 1997 年同名专辑),即日起开启灰度测试。该模式延续"模型即 Agent"理念,通过端到端训练 7 月发布的 Kimi K2
模型,让 AI 能够操作虚拟计算机完成复杂任务------从聊天对话直接生成多页面响应式网站、处理百万行数据并生成交互式仪表板、制作可编辑 PPT 等。系统原生支持文件系统、浏览器和终端操作,相比标准聊天模式能处理更多步骤、调用更多工具。

OK Computer
背后的 K2
模型采用 MoE 架构,拥有 1 万亿总参数、320 亿激活参数,包含 384 个专家模型(每个 token 激活 8 个),支持 128K 上下文窗口。在关键基准测试中表现优异:LiveCodeBench 达到 53.7%、SWE-bench Verified 达 65.8%、AceBench 为 76.5%,在自主编程、工具调用和数学推理等维度达到行业领先水平。首批体验资格优先开放给之前打赏过 Kimi 的用户,免费用户获得 3 次试用机会。月之暗面将这一功能定位为"AI 产品和工程团队一体化解决方案",标志着其在"高价值、长链条任务"领域的重要布局。
04|字节发布豆包翻译大模型,28 语言互译性能比肩 GPT-4o
9 月 22 日,字节跳动旗下火山引擎正式推出通用翻译大模型 Doubao-Seed-Translation
,支持 28 种语言互译,覆盖中、英、日、韩、德、法、西、俄等主流语种。官方宣称中英翻译效果逼近 Deepseek-R1
,通用多语言翻译效果超越或持平 GPT-4o
/ Gemini-2.5-Pro
。最大亮点是其极具竞争力的定价策略:每百万字符输入仅需 1.20 元,输出为 3.60 元,为中小企业和开发者大幅降低了使用门槛。

Doubao-Seed-Translation
模型支持 4K 上下文窗口,最大输出长度可达 3K tokens,能够自动识别源语言并精准翻译。豆包翻译模型的最大特色之一是其强大的场景适配能力,无论是处理办公文档、古诗文、网络热词还是科技医疗领域的专业术语,都能精准应对,输出自然且无"翻译腔"的译文。值得注意的是,豆包团队此前在 7 月还开源了 Seed-X
系列 7B 参数翻译模型,显示出字节在翻译技术上的持续投入和多路线并进策略。
05|OpenAI 推出 ChatGPT Pulse,AI 助手从被动问答转向主动服务
9 月 25 日,OpenAI 正式发布 ChatGPT Pulse
预览版,标志着 AI 助手从被动响应向主动服务的重大转型。该功能目前仅向 ChatGPT Pro 订阅用户(月费 200 美元)的移动端开放,通过夜间异步分析用户的聊天历史、日历安排和邮件内容,自动生成 5-10 张个性化的视觉卡片式每日简报。CEO Sam Altman 称其为"迄今最喜欢的 ChatGPT 功能"。并且,用户可通过点击"curate"按钮定制内容方向,如要求周五本地活动汇总或新技能学习建议。

Pulse
的设计理念强调实用性而非屏幕时间------每日更新仅刷新一次,卡片内容 24 小时后自动消失(除非用户主动保存),刻意避免社交媒体式的无限滚动。功能支持连接 Gmail 和 Google Calendar 获取更多上下文,可自动起草会议议程、提醒购买生日礼物或推荐即将旅行的餐厅。OpenAI 应用 CEO Fidji Simo 表示,这是将"原本只有富人才能负担的支持水平"普及给所有人的第一步。由于计算资源限制,该功能将先向 Plus 用户(月费 20 美元)扩展,最终目标是覆盖所有用户。
06|OpenAI 内测 GPT-Alpha 智能体,基于 GPT-5 模型打造高级推理能力
9 月 24 日,科技媒体 BleepingComputer 报道,OpenAI 正在内部测试名为 GPT-Alpha
的新型 AI 智能体,该系统基于 GPT-5
模型构建,专为"高级推理和工具使用"而设计。这一消息源于 X 用户 Clay Malott 的意外发现------他在 ChatGPT 界面的 Alpha Models 部分看到了标记为"Agent with Truncation"的选项,随后该功能迅速被撤下。根据泄露的系统提示词,GPT-Alpha
能够执行网页浏览、生成和编辑图像、编写调试代码、创建编辑文档/电子表格/幻灯片等复杂任务,并设有严格的隐私保护约束。

这一泄露与 OpenAI CEO Sam Altman 上周的预告相吻合------他曾表示公司即将推出"计算密集型"新功能,由于成本高昂,部分功能将仅向 Pro 订阅用户(月费 200 美元)开放或收取额外费用。业内分析认为,GPT-Alpha
代表着 ChatGPT 从单纯的对话机器人向自主 AI 助手的重大转型,能够在数字环境中直接执行操作而非仅提供文本响应。除 GPT-Alpha
外,用户还发现了代号"Pineapple"的神秘功能,可能与改进后续响应或工作流自动化相关,显示 OpenAI 正在积极测试扩展 ChatGPT 功能边界的多项新技术。
07|谷歌推出 Mixboard 实验性 AI 创意画板,主打"开放画布"视觉构思
9 月 24 日,谷歌通过 Google Labs 正式推出实验性 AI 工具 Mixboard
,将传统情绪板(mood board)概念与生成式 AI 深度融合。不同于 Pinterest 的内容聚合模式,Mixboard 采用"开放画布"理念,用户只需输入文本提示如"复古都市咖啡馆"或"秋季客厅派对",系统便能在数秒内生成原创视觉内容并自动排布成板。该工具集成了谷歌 8 月刚发布的 Nano Banana
图像编辑模型(正式名称 Gemini 2.5 Flash Image
),这一模型在 LMArena 平台被评为全球顶级图像编辑模型,支持通过自然语言指令进行复杂编辑。

Mixboard 提供了极具灵活性的创作流程。用户可以上传个人图片与 AI 生成内容混合编辑,通过"regenerate"一键生成新版本,或使用"more like this"快速探索相似方向。更有意思的是,系统能根据画板上的图像自动生成描述性文本,为创意项目提供标签说明。目前该工具仅在美国作为公开测试版免费提供,与 Canva Magic Studio、Adobe Firefly 等竞品相比,Mixboard 更强调"混乱而迭代"的探索过程,而非追求精美成品输出------这种设计理念反映了谷歌对 AI 辅助创意工具的独特理解,即把 AI 定位为激发灵感的协作伙伴,而非单纯的内容生成器。
08|谷歌推出 AI 版 Androidify,自拍秒变个性化安卓机器人
谷歌于本月正式发布全新 AI 驱动的 Androidify
应用和网页版,让用户通过上传自拍或输入文字提示创建个性化安卓机器人形象。该功能整合了谷歌多个 AI 模型:Gemini 2.5 Flash
用于生成照片描述、Imagen 3
微调版本生成机器人形象、Veo 3
视频模型在特定情况下制作动画。用户可为机器人添加配件(如雨伞、护目镜、帽子),选择不同风格主题(如星空观察者、游戏玩家、旅行者、健身达人),并设置多种输出格式包括壁纸、横幅、贴纸等。

作为特别功能,9 月每个周五限量开放 8 秒动画视频生成,由 Veo 3
模型驱动,让静态机器人形象动起来。技术层面,应用采用 Jetpack Compose 构建界面、Firebase AI Logic SDK 访问 AI 模型、CameraX 配合 ML Kit 姿势检测实现智能拍照引导。这是继 2020 年原版 Androidify 下架后的 AI 重制版,不仅展示了谷歌在生成式 AI 领域的技术实力,也为用户提供了有趣的个性化表达工具。应用已在 Google Play 商店和 androidify.com 网站上线,完全免费使用。
09|微软 365 Copilot 引入 Anthropic Claude 模型,打破 OpenAI 独家局面
9 月 24 日,微软宣布在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4
和 Claude Opus 4.1
模型,正式开启多模型策略,结束了对 OpenAI 的单一依赖。企业用户现可在 Researcher 智能体和 Copilot Studio 中选择使用 Claude 或 OpenAI 模型。其中,Researcher 智能体可由 Claude Opus 4.1
驱动,适用于构建市场策略、分析产品趋势或创建季度报告等深度研究任务;Copilot Studio 则同时支持两款 Claude 模型,用于构建和自定义企业级智能体。

这一变化需要管理员在 Microsoft 365 管理中心启用后方可使用,目前通过 Frontier 早期访问计划向获得许可的客户推出,预计年底前全面投产。值得注意的是,Anthropic 模型运行在 Amazon AWS 和 Google Cloud 而非微软云环境,并遵循 Anthropic 的服务条款。微软业务与行业 Copilot 总裁 Charles Lamanna 表示,这只是开始,Anthropic 模型将为 Microsoft 365 Copilot 带来更强大的体验。此举反映了微软的多模型编排策略------根据任务、成本和合规要求选择最合适的模型,而非所有请求都使用同一模型,标志着企业 AI 应用进入更灵活的多选择时代。
10|Meta 推出 Vibes 短视频平台,所有内容均由 AI 生成
9 月 25 日,Meta 正式发布 Vibes
短视频平台,这是首个完全由 AI 生成内容的社交视频平台,目前已在 Meta AI 应用内上线,覆盖北美、澳大利亚、新西兰、英国等市场。与 TikTok、Instagram Reels 等平台的关键区别在于,Vibes
不支持上传个人视频,所有内容必须通过 AI 工具生成。Meta 与 Midjourney 和 Black Forest Labs 合作提供生成技术,用户可以通过文本提示创建视频、混音现有内容、添加音乐和调整风格,生成内容可跨平台分享至 Instagram 和 Facebook。

该平台推出后迅速引发争议,扎克伯格在 Instagram 发布的展示视频下,热门评论包括"没人想要这个"和"老哥在自己的应用上发 AI 垃圾"等负面反馈。业内人士指出,Vibes
是 Meta 在 AI 领域激进布局的体现------今年 6 月,该公司成立 Meta Superintelligence Labs(超级智能实验室),斥资 143 亿美元收购 Scale AI 49% 股份,并以高达 1 亿美元签约金挖角顶尖研究人员。尽管 Meta 第二季度营收达 475 亿美元,但其 AI 战略能否通过纯 AI 生成内容创造新的用户价值,还是会像元宇宙投资那样成为昂贵的试验,仍有待市场验证。
我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。
相信 AI 是普通人的"外挂",致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。
欢迎关注"AI信息Gap",用 AI 为你的未来加速。