DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28

卷,卷起来了!

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🚀 DeepSeek 发布 V3.1-Terminus :Agent 性能提升 28%,HLE 测试跃升全球第三,仅次于 Grok 4GPT-5,SimpleQA 准确率达 96.8%。

2️⃣ 💰 阿里云栖大会七连发 :3800 亿 AI 基建投资起步,万亿参数 Qwen3-Max 对标 GPT-5,AIME 25 和 HMMT 数学测试满分 100 分。

3️⃣ 🖥️ Kimi 推出 OK Computer :基于 K2 模型的 Agent 模式,可直接开发多页面网站、处理百万行数据、制作可编辑 PPT。

4️⃣ 🌐 字节豆包翻译大模型Doubao-Seed-Translation 支持 28 语言互译,性能比肩 GPT-4o,百万字符仅 1.20 元。

5️⃣ 📱 OpenAI 发布 ChatGPT Pulse :AI 从被动问答转向主动服务,为 Pro 用户生成个性化每日简报,CEO 称其为"最喜欢的功能"。

6️⃣ 🤖 OpenAI 内测 GPT-Alpha :基于 GPT-5 模型打造,具备高级推理和工具使用能力,可执行网页浏览、图像编辑等复杂任务。

7️⃣ 🎨 谷歌推出 Mixboard :AI 创意画板工具,集成 Nano Banana 图像编辑模型,支持文本生成原创视觉内容。

8️⃣ 🤖 谷歌发布 AI 版 Androidify :结合 Gemini 2.5 FlashImagen 3Veo 3 模型,自拍秒变个性化安卓机器人。

9️⃣ 🔄 微软 365 引入 AnthropicClaude Sonnet 4Claude Opus 4.1 正式入驻 Copilot,打破 OpenAI 独家局面。

🔟 📹 Meta 推出 Vibes 平台 :首个纯 AI 生成内容的短视频平台,不支持上传个人视频,引发用户争议。


01|DeepSeek V3.1-Terminus 登场:HLE 测试跃升全球第三,Agent 性能提升 28%

9 月 22 日,DeepSeek 正式发布 V3.1-Terminus 版本更新,这是对 8 月发布的 V3.1 版本的优化,重点解决用户反馈的两大痛点。新版本显著改善了语言混杂问题,有效减少了中英文无规律切换和随机乱码现象,这一改进对跨语言应用场景尤为重要。在 Agent 能力方面,Code AgentSearch Agent 获得实质性提升------BrowseComp 网页导航测试从 30.0 跃升至 38.5,Terminal-bench 命令行交互从 31.3 提升至 36.7,SWE Verified 软件工程验证达到 68.4,SimpleQA 问答准确率更是飙升至 96.8。

技术架构上,Terminus 延续了 V3 系列的混合专家(MoE)设计,671B 总参数中激活 37B,支持高达 128K tokens 上下文。该版本保留了双模式切换能力:thinking mode 用于复杂多步推理,non-thinking mode 则专注快速响应。值得注意的是,在备受关注的 Humanity's Last Exam 基准测试中,Terminus 从 15.9 分跃升至 21.7 分,仅次于 Grok 4(25.4)和 GPT-5(25.3),位列全球第三。API 定价维持竞争优势,缓存命中时输入仅 0.5 元/百万 tokens,输出 12 元/百万 tokens。模型权重已在 Hugging Face 开源(MIT 协议),为开发者提供了一个在稳定性与成本效益之间取得平衡的实用选择。


02|阿里云栖大会"七连发":3800 亿 AI 基建投资起步,万亿参数 Qwen MAX 对标 GPT-5

9 月 24 日,在 2025 云栖大会上,阿里集团董事兼 CEO 吴泳铭宣布正在推进三年 3800 亿元的 AI 基础设施建设计划,并将持续追加更大投入。会上阿里通义发布 6 款新模型 + 1 个全新品牌,在模型智能、多模态能力、Agent 工具调用等方面实现多维突破。其中旗舰模型 Qwen3-Max 以 1.2 万亿总参数、120 亿激活参数的混合专家架构(MoE)刷新行业纪录,预训练数据量达 36 万亿 tokens,在数学推理测试 AIME 25 和 HMMT 中斩获满分 100 分,成为全球首个达成此成就的大模型;在 SWE-Bench Verified 编程测试中以 69.6 分登顶,超越 Claude Opus 4DeepSeek-V3.1

除了 Qwen MAX 的性能突破,本次发布阵容堪称豪华。全模态模型 Qwen3-Omni 首次实现音、视、文多模态混合训练而各项能力不降反升,音视频能力狂揽 32 项开源最佳性能 SOTA。视觉理解模型 Qwen3-VL-235B-A22B 已正式开源,在 32 项核心能力测评中超过 Gemini-2.5-ProGPT-5,能够像人一样操作手机和电脑界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchmark 上达到世界顶尖水平。图像编辑模型 Qwen-Image-Edit 实现了对图片中文字的精准编辑,支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作------真正做到"改字不崩脸、换装不走样"。

专项模型方面,编程模型 Qwen3-Coder 升级支持 256K 上下文,并强化了终端任务功能,Terminal Bench 性能大幅提升,推理速度更快、token 消耗更少。通义万相推出 Wan2.5-Preview,首次实现音画同步,10 秒 1080P 24fps 视频直接配人声、音效、音乐,音画对齐效果接近电影感,时长从 5 秒提升至 10 秒,支持复杂镜头控制和结构化提示词输入。全新发布的语音大模型家族通义百聆涵盖语音识别大模型 Fun-ASR 和语音合成大模型 Fun-CosyVoiceFun-ASR 基于数千万小时真实语音数据训练而成,可实时处理 10 多种语言;Fun-CosyVoice 提供上百种预制音色,适用于客服、销售、直播电商等场景,目前通义百聆开源模型的下载量已超 5.6 亿。


03|Kimi 发布 Agent 模式 OK Computer,可开发网站、分析百万行数据

9 月 25 日,月之暗面正式推出 Kimi 全新 Agent 模式 OK Computer(命名致敬 Radiohead 1997 年同名专辑),即日起开启灰度测试。该模式延续"模型即 Agent"理念,通过端到端训练 7 月发布的 Kimi K2 模型,让 AI 能够操作虚拟计算机完成复杂任务------从聊天对话直接生成多页面响应式网站、处理百万行数据并生成交互式仪表板、制作可编辑 PPT 等。系统原生支持文件系统、浏览器和终端操作,相比标准聊天模式能处理更多步骤、调用更多工具。

OK Computer 背后的 K2 模型采用 MoE 架构,拥有 1 万亿总参数、320 亿激活参数,包含 384 个专家模型(每个 token 激活 8 个),支持 128K 上下文窗口。在关键基准测试中表现优异:LiveCodeBench 达到 53.7%、SWE-bench Verified 达 65.8%、AceBench 为 76.5%,在自主编程、工具调用和数学推理等维度达到行业领先水平。首批体验资格优先开放给之前打赏过 Kimi 的用户,免费用户获得 3 次试用机会。月之暗面将这一功能定位为"AI 产品和工程团队一体化解决方案",标志着其在"高价值、长链条任务"领域的重要布局。


04|字节发布豆包翻译大模型,28 语言互译性能比肩 GPT-4o

9 月 22 日,字节跳动旗下火山引擎正式推出通用翻译大模型 Doubao-Seed-Translation,支持 28 种语言互译,覆盖中、英、日、韩、德、法、西、俄等主流语种。官方宣称中英翻译效果逼近 Deepseek-R1,通用多语言翻译效果超越或持平 GPT-4o / Gemini-2.5-Pro。最大亮点是其极具竞争力的定价策略:每百万字符输入仅需 1.20 元,输出为 3.60 元,为中小企业和开发者大幅降低了使用门槛。

Doubao-Seed-Translation 模型支持 4K 上下文窗口,最大输出长度可达 3K tokens,能够自动识别源语言并精准翻译。豆包翻译模型的最大特色之一是其强大的场景适配能力,无论是处理办公文档、古诗文、网络热词还是科技医疗领域的专业术语,都能精准应对,输出自然且无"翻译腔"的译文。值得注意的是,豆包团队此前在 7 月还开源了 Seed-X 系列 7B 参数翻译模型,显示出字节在翻译技术上的持续投入和多路线并进策略。


05|OpenAI 推出 ChatGPT Pulse,AI 助手从被动问答转向主动服务

9 月 25 日,OpenAI 正式发布 ChatGPT Pulse 预览版,标志着 AI 助手从被动响应向主动服务的重大转型。该功能目前仅向 ChatGPT Pro 订阅用户(月费 200 美元)的移动端开放,通过夜间异步分析用户的聊天历史、日历安排和邮件内容,自动生成 5-10 张个性化的视觉卡片式每日简报。CEO Sam Altman 称其为"迄今最喜欢的 ChatGPT 功能"。并且,用户可通过点击"curate"按钮定制内容方向,如要求周五本地活动汇总或新技能学习建议。

Pulse 的设计理念强调实用性而非屏幕时间------每日更新仅刷新一次,卡片内容 24 小时后自动消失(除非用户主动保存),刻意避免社交媒体式的无限滚动。功能支持连接 Gmail 和 Google Calendar 获取更多上下文,可自动起草会议议程、提醒购买生日礼物或推荐即将旅行的餐厅。OpenAI 应用 CEO Fidji Simo 表示,这是将"原本只有富人才能负担的支持水平"普及给所有人的第一步。由于计算资源限制,该功能将先向 Plus 用户(月费 20 美元)扩展,最终目标是覆盖所有用户。


06|OpenAI 内测 GPT-Alpha 智能体,基于 GPT-5 模型打造高级推理能力

9 月 24 日,科技媒体 BleepingComputer 报道,OpenAI 正在内部测试名为 GPT-Alpha 的新型 AI 智能体,该系统基于 GPT-5 模型构建,专为"高级推理和工具使用"而设计。这一消息源于 X 用户 Clay Malott 的意外发现------他在 ChatGPT 界面的 Alpha Models 部分看到了标记为"Agent with Truncation"的选项,随后该功能迅速被撤下。根据泄露的系统提示词,GPT-Alpha 能够执行网页浏览、生成和编辑图像、编写调试代码、创建编辑文档/电子表格/幻灯片等复杂任务,并设有严格的隐私保护约束。

这一泄露与 OpenAI CEO Sam Altman 上周的预告相吻合------他曾表示公司即将推出"计算密集型"新功能,由于成本高昂,部分功能将仅向 Pro 订阅用户(月费 200 美元)开放或收取额外费用。业内分析认为,GPT-Alpha 代表着 ChatGPT 从单纯的对话机器人向自主 AI 助手的重大转型,能够在数字环境中直接执行操作而非仅提供文本响应。除 GPT-Alpha 外,用户还发现了代号"Pineapple"的神秘功能,可能与改进后续响应或工作流自动化相关,显示 OpenAI 正在积极测试扩展 ChatGPT 功能边界的多项新技术。


07|谷歌推出 Mixboard 实验性 AI 创意画板,主打"开放画布"视觉构思

9 月 24 日,谷歌通过 Google Labs 正式推出实验性 AI 工具 Mixboard,将传统情绪板(mood board)概念与生成式 AI 深度融合。不同于 Pinterest 的内容聚合模式,Mixboard 采用"开放画布"理念,用户只需输入文本提示如"复古都市咖啡馆"或"秋季客厅派对",系统便能在数秒内生成原创视觉内容并自动排布成板。该工具集成了谷歌 8 月刚发布的 Nano Banana 图像编辑模型(正式名称 Gemini 2.5 Flash Image),这一模型在 LMArena 平台被评为全球顶级图像编辑模型,支持通过自然语言指令进行复杂编辑。

Mixboard 提供了极具灵活性的创作流程。用户可以上传个人图片与 AI 生成内容混合编辑,通过"regenerate"一键生成新版本,或使用"more like this"快速探索相似方向。更有意思的是,系统能根据画板上的图像自动生成描述性文本,为创意项目提供标签说明。目前该工具仅在美国作为公开测试版免费提供,与 Canva Magic Studio、Adobe Firefly 等竞品相比,Mixboard 更强调"混乱而迭代"的探索过程,而非追求精美成品输出------这种设计理念反映了谷歌对 AI 辅助创意工具的独特理解,即把 AI 定位为激发灵感的协作伙伴,而非单纯的内容生成器。


08|谷歌推出 AI 版 Androidify,自拍秒变个性化安卓机器人

谷歌于本月正式发布全新 AI 驱动的 Androidify 应用和网页版,让用户通过上传自拍或输入文字提示创建个性化安卓机器人形象。该功能整合了谷歌多个 AI 模型:Gemini 2.5 Flash 用于生成照片描述、Imagen 3 微调版本生成机器人形象、Veo 3 视频模型在特定情况下制作动画。用户可为机器人添加配件(如雨伞、护目镜、帽子),选择不同风格主题(如星空观察者、游戏玩家、旅行者、健身达人),并设置多种输出格式包括壁纸、横幅、贴纸等。

作为特别功能,9 月每个周五限量开放 8 秒动画视频生成,由 Veo 3 模型驱动,让静态机器人形象动起来。技术层面,应用采用 Jetpack Compose 构建界面、Firebase AI Logic SDK 访问 AI 模型、CameraX 配合 ML Kit 姿势检测实现智能拍照引导。这是继 2020 年原版 Androidify 下架后的 AI 重制版,不仅展示了谷歌在生成式 AI 领域的技术实力,也为用户提供了有趣的个性化表达工具。应用已在 Google Play 商店和 androidify.com 网站上线,完全免费使用。


09|微软 365 Copilot 引入 Anthropic Claude 模型,打破 OpenAI 独家局面

9 月 24 日,微软宣布在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4Claude Opus 4.1 模型,正式开启多模型策略,结束了对 OpenAI 的单一依赖。企业用户现可在 Researcher 智能体和 Copilot Studio 中选择使用 Claude 或 OpenAI 模型。其中,Researcher 智能体可由 Claude Opus 4.1 驱动,适用于构建市场策略、分析产品趋势或创建季度报告等深度研究任务;Copilot Studio 则同时支持两款 Claude 模型,用于构建和自定义企业级智能体。

这一变化需要管理员在 Microsoft 365 管理中心启用后方可使用,目前通过 Frontier 早期访问计划向获得许可的客户推出,预计年底前全面投产。值得注意的是,Anthropic 模型运行在 Amazon AWS 和 Google Cloud 而非微软云环境,并遵循 Anthropic 的服务条款。微软业务与行业 Copilot 总裁 Charles Lamanna 表示,这只是开始,Anthropic 模型将为 Microsoft 365 Copilot 带来更强大的体验。此举反映了微软的多模型编排策略------根据任务、成本和合规要求选择最合适的模型,而非所有请求都使用同一模型,标志着企业 AI 应用进入更灵活的多选择时代。


10|Meta 推出 Vibes 短视频平台,所有内容均由 AI 生成

9 月 25 日,Meta 正式发布 Vibes 短视频平台,这是首个完全由 AI 生成内容的社交视频平台,目前已在 Meta AI 应用内上线,覆盖北美、澳大利亚、新西兰、英国等市场。与 TikTok、Instagram Reels 等平台的关键区别在于,Vibes 不支持上传个人视频,所有内容必须通过 AI 工具生成。Meta 与 Midjourney 和 Black Forest Labs 合作提供生成技术,用户可以通过文本提示创建视频、混音现有内容、添加音乐和调整风格,生成内容可跨平台分享至 Instagram 和 Facebook。

该平台推出后迅速引发争议,扎克伯格在 Instagram 发布的展示视频下,热门评论包括"没人想要这个"和"老哥在自己的应用上发 AI 垃圾"等负面反馈。业内人士指出,Vibes 是 Meta 在 AI 领域激进布局的体现------今年 6 月,该公司成立 Meta Superintelligence Labs(超级智能实验室),斥资 143 亿美元收购 Scale AI 49% 股份,并以高达 1 亿美元签约金挖角顶尖研究人员。尽管 Meta 第二季度营收达 475 亿美元,但其 AI 战略能否通过纯 AI 生成内容创造新的用户价值,还是会像元宇宙投资那样成为昂贵的试验,仍有待市场验证。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的"外挂",致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注"AI信息Gap",用 AI 为你的未来加速。


精选推荐

相关推荐
ai_xiaogui3 小时前
ChatGPT开源模型发布!部署20B/120B AI模型实战指南
人工智能·chatgpt·20b 120b模型部署教程·本地部署chatgpt模型实战·高性能加速开源ai模型开发·开源模型windows配置方法
春末的南方城市3 小时前
阿里开源视频修复方法Vivid-VR:以独特策略与架构革新,引领生成视频修复高质量可控新时代。
人工智能·深度学习·机器学习·计算机视觉·aigc
Digitally3 小时前
将照片从iPhone传输到联想笔记本的6种方法
ios·iphone
Stars20243 小时前
【gin框架读取参数的方式】
iphone·xcode·gin
Digitally3 小时前
删除iCloud中的照片但保留iPhone上的照片的两种方法
ios·iphone·icloud
Juchecar3 小时前
人工智能重塑人类生活范式
人工智能
FIT2CLOUD飞致云3 小时前
飞致云开源社区月度动态报告(2025年9月)
人工智能·开源
量子位3 小时前
宇树机器人被曝漏洞,机器人之间可相互感染,官方火速回应
人工智能·ai编程
chaofan9803 小时前
如何用 Claude Code 搭建安全、可测、可自动化的 GitHub CI 流程?
运维·人工智能·ci/cd·ai·自动化·github·claude