景联文AI观察动态速递 第3期

大厂模型动态

  1. OpenAI 发布了 GPT - 5.1(Instant & Thinking),主打"智商情商"双重升级,首次引入「自适应推理」,平衡速度与深度,新模型对话风格更"有人味",个性化设置大升级。同时发布了首款 AI 浏览器 ChatGPT Atlas,其 Agent 模式可"接管"鼠标完成跨网页多步骤任务。未来几周,ChatGPT 新版本将引入"个性",12 月将推行年龄分级系统。此外,还小范围测试了 ChatGPT 群聊功能。

  2. 谷歌 发布了 Gemini 3,相比去年的 Gemini 2 有巨大飞跃,在主流 AI 基准测试中超越前代及竞品。它具有多模态理解能力强、推理能力出色、编码能力优秀等特点,还推出了"生成式 UI"变革搜索,Agent 实用性增强。谷歌还发布了视频模型 Veo - 3.1,挑战 OpenAI Sora 2,具备原生音频注入、场景手术刀等关键特性。另外,谷歌的 NotebookLM 新增图像识别功能和 Deep Research 功能。

  3. Meta 从 2026 年起将"AI 驱动的影响"纳入员工绩效核心指标,鼓励员工使用内部 AI 聊天机器人 Metamate,允许部分求职者在编码面试中使用 AI 助手。

  4. 阿里 千问 APP 公测版上线,以 Qwen3 模型为底座,将覆盖多个生活场景。

  5. 小米 推出"大模型 + 智能家居"解决方案 Xiaomi Miloco,以自研大语言模型 MiMo - VL - Miloco - 7B 为核心,支持视觉数据的设备端理解保障隐私安全。

  6. 马斯克 的 xAI 发布了 Grok 4.1,在 LMArena 排行榜上成绩优异,在情商测试、创意写作等方面表现出色,且减少了幻觉问题。

其他公司模型动态

  1. 贝佐斯 创立的 Project Prometheus 首轮获 62 亿美元融资,研究将 AI 应用于物理任务。

  2. Physical Intelligence 发布了最新机器人基础模型 π*0.6,采用 Recap 方法提升具身智能成功率和处理效率。

  3. MiniMax 的 M2 推出 9.9 元编程套餐,在 OpenRouter 平台 token 调用量全球 Top5。

  4. PixVerse 上线升级版 V5 Fast 及「Modify」精修功能,视频生成速度提升超 30%。

  5. 蚂蚁集团 推出全模态通用 AI 助手 「灵光」,支持自然语言 30 秒生成小应用。

  6. Gambo AI 推出"氛围编程"Agent,输入一句话 5 - 10 分钟生成可商业化发布的完整游戏。

  7. 前 Meta 员工 创立的 Sandbar 发布 Stream 智能戒指,专注 AI 语音交互。

最新开源模型(含框架、平台、工具、方案、Agent 开发、Robotics 开发)

  1. 微博 自研开源大模型 VibeThinker 仅 15 亿参数,采用"频谱到信号原理"(SSP)方法训练,在国际顶级数学竞赛基准测试上击败参数量是其数百倍的模型,后训练总成本仅 7800 美元,成本效益比达 30 到 60 倍。

  2. MiroMind 推出开源智能体基座模型 MiroThinker v1.0,提出"深度交互 Scaling"维度,支持 256K 上下文和 600 轮工具调用,在 BrowseComp 测试中准确率达 47.1%,逼近 OpenAI DeepResearch 的 51.5%,中文任务 BrowseComp - ZH 超越 DeepSeek - v3.2 达 7.7 个百分点。

  3. 陈天桥盛大团队 推出面向 AI 的长期记忆操作系统 EverMemOS,在评测集上成绩优异,超越 SOTA 水平,系统受人脑记忆机制启发,有四层架构,解决纯文本相似度检索难题,已在 Github 开源。

  4. 腾讯内容算法中心 联合 清华大学 提出 ReSeek 框架,重塑 Search Agent 核心逻辑,引入动态自我修正机制避免"一条路走到黑",在 3B 和 7B 参数规模上达业界领先平均性能。

  5. 美团 LongCat 团队 联合多所顶尖高校推出包含 50 道原创 IMO 级别难题的新基准 AMO - Bench,用于评估 LLM 数学推理能力,顶级模型在该基准测试中表现不佳,但展示了提升空间。

  6. 阿里通义实验室 推出自进化 agent 系统 AgentEvolver,包含自我提问、自我导航、自我归因三个协同机制,在 AppWorld 和 BFCL - v3 基准测试中表现出色,实现了更高效的探索、更好的样本利用和更快的适应,且代码开源。

  7. 微软研究院 提出全新推理范式 AsyncThink,让大语言模型从单打独斗的推理者进化成会带团队的项目经理,在多解 Countdown 任务、数学竞赛推理等方面表现优异,具备跨领域泛化能力。

  8. 北京大学团队 的 AI - Newton 系统 用符号回归方法,无监督、无先验知识下重新发现基础物理定律,由知识库支持,平均识别多个物理概念和定律,为 AI 驱动科学发现提供新范式。

4

数据加工范式、数据需求态势

  1. 斑马口语 针对 6 - 12 岁儿童英语口语场景深度定制 AI 外教,积累大量孩子发音和真人外教教学数据,构建专项数据集用于 AI 外教学习。

  2. ReSeek 框架 构建了 FictionalHot 数据集,用于公正评估智能体推理能力,消除"数据污染"问题。

  3. OpenAI 提出训练权重稀疏的 Transformer 模型,从头训练易解释模型以理解更复杂的模型,该方法涉及数据训练和模型优化。

  4. RL 赋能搜索 涉及多种训练范式和奖励设计,数据在其中用于训练智能体,包括 SFT 冷启动、RL 微调等,奖励函数从单一到多维演进。

报告观点(机构报告、白皮书、调研、高管/学者观点)

  1. CB Insights 报告 指出 2024 年 AI Agent 创业公司融资总额增长,Voice AI 成增长最快赛道,Coding AI Agents 表现突出,Customer service AI 估值倍数高,Reasoning models 导致成本倒挂,2025 年收购案多,Agent 监控工具成企业刚需。

  2. 李飞飞 认为 AGI 更像营销术语,当前 AI 最大短板是缺乏空间智能,阐述了世界模型三个核心能力,World Labs 发布的世界模型产品 Marble 已在多领域广泛应用,创作时间缩短 40 倍。

  3. OpenAI 提出训练稀疏模型使模型内部机制更易理解,找出"最小回路"量化可解释性,但研究处早期阶段,稀疏模型小且训练效率低。

相关推荐
之歆18 小时前
Spring AI入门到实战到原理源码-MCP
java·人工智能·spring
知乎的哥廷根数学学派18 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
且去填词19 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
待续30119 小时前
订阅了 Qoder 之后,我想通过这篇文章分享一些个人使用心得和感受。
人工智能
weixin_3975780219 小时前
人工智能发展历史
人工智能
强盛小灵通专卖员19 小时前
基于深度学习的山体滑坡检测科研辅导:从论文实验到系统落地的完整思路
人工智能·深度学习·sci·小论文·山体滑坡
OidEncoder19 小时前
从 “粗放清扫” 到 “毫米级作业”,编码器重塑环卫机器人新能力
人工智能·自动化·智慧城市
Hcoco_me19 小时前
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
人工智能·深度学习·自然语言处理·transformer·vllm
阿部多瑞 ABU19 小时前
`chenmo` —— 可编程元叙事引擎 V2.3+
linux·人工智能·python·ai写作
极海拾贝20 小时前
GeoScene解决方案中心正式上线!
大数据·人工智能·深度学习·arcgis·信息可视化·语言模型·解决方案