DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场！| AI Weekly 9.22-9.28

卷，卷起来了！

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🚀 DeepSeek 发布 V3.1-Terminus ：Agent 性能提升 28%，HLE 测试跃升全球第三，仅次于 Grok 4 和 GPT-5，SimpleQA 准确率达 96.8%。

2️⃣ 💰 阿里云栖大会七连发 ：3800 亿 AI 基建投资起步，万亿参数 Qwen3-Max 对标 GPT-5，AIME 25 和 HMMT 数学测试满分 100 分。

3️⃣ 🖥️ Kimi 推出 OK Computer ：基于 K2 模型的 Agent 模式，可直接开发多页面网站、处理百万行数据、制作可编辑 PPT。

4️⃣ 🌐 字节豆包翻译大模型 ：Doubao-Seed-Translation 支持 28 语言互译，性能比肩 GPT-4o，百万字符仅 1.20 元。

5️⃣ 📱 OpenAI 发布 ChatGPT Pulse ：AI 从被动问答转向主动服务，为 Pro 用户生成个性化每日简报，CEO 称其为"最喜欢的功能"。

6️⃣ 🤖 OpenAI 内测 GPT-Alpha ：基于 GPT-5 模型打造，具备高级推理和工具使用能力，可执行网页浏览、图像编辑等复杂任务。

7️⃣ 🎨 谷歌推出 Mixboard ：AI 创意画板工具，集成 Nano Banana 图像编辑模型，支持文本生成原创视觉内容。

8️⃣ 🤖 谷歌发布 AI 版 Androidify ：结合 Gemini 2.5 Flash、Imagen 3 和 Veo 3 模型，自拍秒变个性化安卓机器人。

9️⃣ 🔄 微软 365 引入 Anthropic ：Claude Sonnet 4 和 Claude Opus 4.1 正式入驻 Copilot，打破 OpenAI 独家局面。

🔟 📹 Meta 推出 Vibes 平台 ：首个纯 AI 生成内容的短视频平台，不支持上传个人视频，引发用户争议。

01｜DeepSeek V3.1-Terminus 登场：HLE 测试跃升全球第三，Agent 性能提升 28%

9 月 22 日，DeepSeek 正式发布 V3.1-Terminus 版本更新，这是对 8 月发布的 V3.1 版本的优化，重点解决用户反馈的两大痛点。新版本显著改善了语言混杂问题，有效减少了中英文无规律切换和随机乱码现象，这一改进对跨语言应用场景尤为重要。在 Agent 能力方面，Code Agent 和 Search Agent 获得实质性提升------BrowseComp 网页导航测试从 30.0 跃升至 38.5，Terminal-bench 命令行交互从 31.3 提升至 36.7，SWE Verified 软件工程验证达到 68.4，SimpleQA 问答准确率更是飙升至 96.8。

技术架构上，Terminus 延续了 V3 系列的混合专家（MoE）设计，671B 总参数中激活 37B，支持高达 128K tokens 上下文。该版本保留了双模式切换能力：thinking mode 用于复杂多步推理，non-thinking mode 则专注快速响应。值得注意的是，在备受关注的 Humanity's Last Exam 基准测试中，Terminus 从 15.9 分跃升至 21.7 分，仅次于 Grok 4（25.4）和 GPT-5（25.3），位列全球第三。API 定价维持竞争优势，缓存命中时输入仅 0.5 元/百万 tokens，输出 12 元/百万 tokens。模型权重已在 Hugging Face 开源（MIT 协议），为开发者提供了一个在稳定性与成本效益之间取得平衡的实用选择。

02｜阿里云栖大会"七连发"：3800 亿 AI 基建投资起步，万亿参数 Qwen MAX 对标 GPT-5

9 月 24 日，在 2025 云栖大会上，阿里集团董事兼 CEO 吴泳铭宣布正在推进三年 3800 亿元的 AI 基础设施建设计划，并将持续追加更大投入。会上阿里通义发布 6 款新模型 + 1 个全新品牌，在模型智能、多模态能力、Agent 工具调用等方面实现多维突破。其中旗舰模型 Qwen3-Max 以 1.2 万亿总参数、120 亿激活参数的混合专家架构（MoE）刷新行业纪录，预训练数据量达 36 万亿 tokens，在数学推理测试 AIME 25 和 HMMT 中斩获满分 100 分，成为全球首个达成此成就的大模型；在 SWE-Bench Verified 编程测试中以 69.6 分登顶，超越 Claude Opus 4 和 DeepSeek-V3.1。

除了 Qwen MAX 的性能突破，本次发布阵容堪称豪华。全模态模型 Qwen3-Omni 首次实现音、视、文多模态混合训练而各项能力不降反升，音视频能力狂揽 32 项开源最佳性能 SOTA。视觉理解模型 Qwen3-VL-235B-A22B 已正式开源，在 32 项核心能力测评中超过 Gemini-2.5-Pro 和 GPT-5，能够像人一样操作手机和电脑界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务，在 OS World 等 benchmark 上达到世界顶尖水平。图像编辑模型 Qwen-Image-Edit 实现了对图片中文字的精准编辑，支持中英文双语文字编辑，可在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增、删、改等操作------真正做到"改字不崩脸、换装不走样"。

专项模型方面，编程模型 Qwen3-Coder 升级支持 256K 上下文，并强化了终端任务功能，Terminal Bench 性能大幅提升，推理速度更快、token 消耗更少。通义万相推出 Wan2.5-Preview，首次实现音画同步，10 秒 1080P 24fps 视频直接配人声、音效、音乐，音画对齐效果接近电影感，时长从 5 秒提升至 10 秒，支持复杂镜头控制和结构化提示词输入。全新发布的语音大模型家族通义百聆涵盖语音识别大模型 Fun-ASR 和语音合成大模型 Fun-CosyVoice，Fun-ASR 基于数千万小时真实语音数据训练而成，可实时处理 10 多种语言；Fun-CosyVoice 提供上百种预制音色，适用于客服、销售、直播电商等场景，目前通义百聆开源模型的下载量已超 5.6 亿。

03｜Kimi 发布 Agent 模式 OK Computer，可开发网站、分析百万行数据

9 月 25 日，月之暗面正式推出 Kimi 全新 Agent 模式 OK Computer（命名致敬 Radiohead 1997 年同名专辑），即日起开启灰度测试。该模式延续"模型即 Agent"理念，通过端到端训练 7 月发布的 Kimi K2 模型，让 AI 能够操作虚拟计算机完成复杂任务------从聊天对话直接生成多页面响应式网站、处理百万行数据并生成交互式仪表板、制作可编辑 PPT 等。系统原生支持文件系统、浏览器和终端操作，相比标准聊天模式能处理更多步骤、调用更多工具。

OK Computer 背后的 K2 模型采用 MoE 架构，拥有 1 万亿总参数、320 亿激活参数，包含 384 个专家模型（每个 token 激活 8 个），支持 128K 上下文窗口。在关键基准测试中表现优异：LiveCodeBench 达到 53.7%、SWE-bench Verified 达 65.8%、AceBench 为 76.5%，在自主编程、工具调用和数学推理等维度达到行业领先水平。首批体验资格优先开放给之前打赏过 Kimi 的用户，免费用户获得 3 次试用机会。月之暗面将这一功能定位为"AI 产品和工程团队一体化解决方案"，标志着其在"高价值、长链条任务"领域的重要布局。

04｜字节发布豆包翻译大模型，28 语言互译性能比肩 GPT-4o

9 月 22 日，字节跳动旗下火山引擎正式推出通用翻译大模型 Doubao-Seed-Translation，支持 28 种语言互译，覆盖中、英、日、韩、德、法、西、俄等主流语种。官方宣称中英翻译效果逼近 Deepseek-R1，通用多语言翻译效果超越或持平 GPT-4o / Gemini-2.5-Pro。最大亮点是其极具竞争力的定价策略：每百万字符输入仅需 1.20 元，输出为 3.60 元，为中小企业和开发者大幅降低了使用门槛。

Doubao-Seed-Translation 模型支持 4K 上下文窗口，最大输出长度可达 3K tokens，能够自动识别源语言并精准翻译。豆包翻译模型的最大特色之一是其强大的场景适配能力，无论是处理办公文档、古诗文、网络热词还是科技医疗领域的专业术语，都能精准应对，输出自然且无"翻译腔"的译文。值得注意的是，豆包团队此前在 7 月还开源了 Seed-X 系列 7B 参数翻译模型，显示出字节在翻译技术上的持续投入和多路线并进策略。

05｜OpenAI 推出 ChatGPT Pulse，AI 助手从被动问答转向主动服务

9 月 25 日，OpenAI 正式发布 ChatGPT Pulse 预览版，标志着 AI 助手从被动响应向主动服务的重大转型。该功能目前仅向 ChatGPT Pro 订阅用户（月费 200 美元）的移动端开放，通过夜间异步分析用户的聊天历史、日历安排和邮件内容，自动生成 5-10 张个性化的视觉卡片式每日简报。CEO Sam Altman 称其为"迄今最喜欢的 ChatGPT 功能"。并且，用户可通过点击"curate"按钮定制内容方向，如要求周五本地活动汇总或新技能学习建议。

Pulse 的设计理念强调实用性而非屏幕时间------每日更新仅刷新一次，卡片内容 24 小时后自动消失（除非用户主动保存），刻意避免社交媒体式的无限滚动。功能支持连接 Gmail 和 Google Calendar 获取更多上下文，可自动起草会议议程、提醒购买生日礼物或推荐即将旅行的餐厅。OpenAI 应用 CEO Fidji Simo 表示，这是将"原本只有富人才能负担的支持水平"普及给所有人的第一步。由于计算资源限制，该功能将先向 Plus 用户（月费 20 美元）扩展，最终目标是覆盖所有用户。

06｜OpenAI 内测 GPT-Alpha 智能体，基于 GPT-5 模型打造高级推理能力

9 月 24 日，科技媒体 BleepingComputer 报道，OpenAI 正在内部测试名为 GPT-Alpha 的新型 AI 智能体，该系统基于 GPT-5 模型构建，专为"高级推理和工具使用"而设计。这一消息源于 X 用户 Clay Malott 的意外发现------他在 ChatGPT 界面的 Alpha Models 部分看到了标记为"Agent with Truncation"的选项，随后该功能迅速被撤下。根据泄露的系统提示词，GPT-Alpha 能够执行网页浏览、生成和编辑图像、编写调试代码、创建编辑文档/电子表格/幻灯片等复杂任务，并设有严格的隐私保护约束。

这一泄露与 OpenAI CEO Sam Altman 上周的预告相吻合------他曾表示公司即将推出"计算密集型"新功能，由于成本高昂，部分功能将仅向 Pro 订阅用户（月费 200 美元）开放或收取额外费用。业内分析认为，GPT-Alpha 代表着 ChatGPT 从单纯的对话机器人向自主 AI 助手的重大转型，能够在数字环境中直接执行操作而非仅提供文本响应。除 GPT-Alpha 外，用户还发现了代号"Pineapple"的神秘功能，可能与改进后续响应或工作流自动化相关，显示 OpenAI 正在积极测试扩展 ChatGPT 功能边界的多项新技术。

07｜谷歌推出 Mixboard 实验性 AI 创意画板，主打"开放画布"视觉构思

9 月 24 日，谷歌通过 Google Labs 正式推出实验性 AI 工具 Mixboard，将传统情绪板（mood board）概念与生成式 AI 深度融合。不同于 Pinterest 的内容聚合模式，Mixboard 采用"开放画布"理念，用户只需输入文本提示如"复古都市咖啡馆"或"秋季客厅派对"，系统便能在数秒内生成原创视觉内容并自动排布成板。该工具集成了谷歌 8 月刚发布的 Nano Banana 图像编辑模型（正式名称 Gemini 2.5 Flash Image），这一模型在 LMArena 平台被评为全球顶级图像编辑模型，支持通过自然语言指令进行复杂编辑。

Mixboard 提供了极具灵活性的创作流程。用户可以上传个人图片与 AI 生成内容混合编辑，通过"regenerate"一键生成新版本，或使用"more like this"快速探索相似方向。更有意思的是，系统能根据画板上的图像自动生成描述性文本，为创意项目提供标签说明。目前该工具仅在美国作为公开测试版免费提供，与 Canva Magic Studio、Adobe Firefly 等竞品相比，Mixboard 更强调"混乱而迭代"的探索过程，而非追求精美成品输出------这种设计理念反映了谷歌对 AI 辅助创意工具的独特理解，即把 AI 定位为激发灵感的协作伙伴，而非单纯的内容生成器。

08｜谷歌推出 AI 版 Androidify，自拍秒变个性化安卓机器人

谷歌于本月正式发布全新 AI 驱动的 Androidify 应用和网页版，让用户通过上传自拍或输入文字提示创建个性化安卓机器人形象。该功能整合了谷歌多个 AI 模型：Gemini 2.5 Flash 用于生成照片描述、Imagen 3 微调版本生成机器人形象、Veo 3 视频模型在特定情况下制作动画。用户可为机器人添加配件（如雨伞、护目镜、帽子），选择不同风格主题（如星空观察者、游戏玩家、旅行者、健身达人），并设置多种输出格式包括壁纸、横幅、贴纸等。

作为特别功能，9 月每个周五限量开放 8 秒动画视频生成，由 Veo 3 模型驱动，让静态机器人形象动起来。技术层面，应用采用 Jetpack Compose 构建界面、Firebase AI Logic SDK 访问 AI 模型、CameraX 配合 ML Kit 姿势检测实现智能拍照引导。这是继 2020 年原版 Androidify 下架后的 AI 重制版，不仅展示了谷歌在生成式 AI 领域的技术实力，也为用户提供了有趣的个性化表达工具。应用已在 Google Play 商店和 androidify.com 网站上线，完全免费使用。

09｜微软 365 Copilot 引入 Anthropic Claude 模型，打破 OpenAI 独家局面

9 月 24 日，微软宣布在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4 和 Claude Opus 4.1 模型，正式开启多模型策略，结束了对 OpenAI 的单一依赖。企业用户现可在 Researcher 智能体和 Copilot Studio 中选择使用 Claude 或 OpenAI 模型。其中，Researcher 智能体可由 Claude Opus 4.1 驱动，适用于构建市场策略、分析产品趋势或创建季度报告等深度研究任务；Copilot Studio 则同时支持两款 Claude 模型，用于构建和自定义企业级智能体。

这一变化需要管理员在 Microsoft 365 管理中心启用后方可使用，目前通过 Frontier 早期访问计划向获得许可的客户推出，预计年底前全面投产。值得注意的是，Anthropic 模型运行在 Amazon AWS 和 Google Cloud 而非微软云环境，并遵循 Anthropic 的服务条款。微软业务与行业 Copilot 总裁 Charles Lamanna 表示，这只是开始，Anthropic 模型将为 Microsoft 365 Copilot 带来更强大的体验。此举反映了微软的多模型编排策略------根据任务、成本和合规要求选择最合适的模型，而非所有请求都使用同一模型，标志着企业 AI 应用进入更灵活的多选择时代。

10｜Meta 推出 Vibes 短视频平台，所有内容均由 AI 生成

9 月 25 日，Meta 正式发布 Vibes 短视频平台，这是首个完全由 AI 生成内容的社交视频平台，目前已在 Meta AI 应用内上线，覆盖北美、澳大利亚、新西兰、英国等市场。与 TikTok、Instagram Reels 等平台的关键区别在于，Vibes 不支持上传个人视频，所有内容必须通过 AI 工具生成。Meta 与 Midjourney 和 Black Forest Labs 合作提供生成技术，用户可以通过文本提示创建视频、混音现有内容、添加音乐和调整风格，生成内容可跨平台分享至 Instagram 和 Facebook。

该平台推出后迅速引发争议，扎克伯格在 Instagram 发布的展示视频下，热门评论包括"没人想要这个"和"老哥在自己的应用上发 AI 垃圾"等负面反馈。业内人士指出，Vibes 是 Meta 在 AI 领域激进布局的体现------今年 6 月，该公司成立 Meta Superintelligence Labs（超级智能实验室），斥资 143 亿美元收购 Scale AI 49% 股份，并以高达 1 亿美元签约金挖角顶尖研究人员。尽管 Meta 第二季度营收达 475 亿美元，但其 AI 战略能否通过纯 AI 生成内容创造新的用户价值，还是会像元宇宙投资那样成为昂贵的试验，仍有待市场验证。

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的"外挂"，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注"AI信息Gap"，用 AI 为你的未来加速。