AI一周资讯 251129-251205

原文: https://mp.weixin.qq.com/s/dutPyteGCa9staazBion8A?scene=1&click_id=7

OpenAI拉响"红色警报"，下周推新模型硬刚Gemini 3 pro

2025年12月2日，面对Google等竞争对手的压力，OpenAI拉响"红色警报"，决定下周发布全新推理模型硬刚Gemini 3 pro。为此，OpenAI采取了一系列应对举措，包括暂停广告、AI Agent和Pulse项目，调配人力和算力资源修复和升级ChatGPT；将产品体验置于商业变现之上，推迟广告业务全面铺开，重点改善超8亿周活用户的核心体验与个性化服务，修补"模型行为"；升级重点聚焦于更好的个性化、更快更可靠的响应速度、减少不必要的拒绝回答、改进模型行为，以让用户更倾向选择ChatGPT；还将图像生成列为重点项目，确保其在创意和商业用例中的竞争力。背后原因在于，尽管ChatGPT占据全球约70%的"助手活动"和约10%的搜索份额，但面临Google和Anthropic的围剿，需确立绝对优势实现营收快速增长（从100亿美元增至200亿，2027年达约350亿美元），以支撑约1000亿美元的融资需求。

Runway Gen-4.5发布："视频生成AGI时刻"来袭！

2025年12月2日，Runway Gen - 4.5刷屏发布，被赞为"视频生成AGI时刻"。它在文本转视频基准测试中拿下SOTA，运镜、视角切换丝滑，复杂场景处理出色，细节丰富，两年迭代质感全面提升，难辨真实与AI生成内容。其功能强大，能执行复杂序列式指令，保留Gen - 4速度效率优势且画质突破，物理还原与视觉精准度高，适配多种控制模式。官方正逐步开放使用权限，未来几天所有用户可体验，"加量不加价"。不过，它在因果推理与物体恒存性方面存在不足，团队正在优化。

快手可灵AI「O1模型」实测：多模态视频与图片生成亮点多

在ChatGPT发布三周年且OpenAI无新内容发布之际，各大AI玩家纷纷行动，快手可灵宣布"一周连续上新"，首日推出号称"全球首个统一多模态视频模型"的可灵AI视频「O1模型」，具备全能指令、全能参考、超多创意等功能亮点。测试显示，多图参考生成画面转场自然但AI对动词指令理解和特定地区数据学习不足，局部编辑能力出色，镜头延展和动作跟踪有一定表现但部分动作有缺失，还有OOTD换装等稳定玩法。次日又发布「图片」O1模型，在图片生成上表现不错。

拍我AI（PixVerse）V5.5：引领AI视频从素材生成迈向内容生成时代

拍我AI（PixVerse）V5.5更新带来AI视频生成领域重大突破。当前多数AI视频工具停留在「素材生成」阶段，存在画面破碎、静音、单一景别等问题，缺乏叙事能力。而拍我AI V5.5亮点显著，具备「导演思维」，能一键生成「分镜 + 音频」实现完整叙事；自带百万音效师，支持多角色音画同步，降低配乐配音门槛；可拿捏影视级镜头，摆脱「动态图片」标签。其应用场景广泛，对电影导演可作高效沟通工具，广告人能借此快速生成提案级别商业广告。该版本带来「叙事能力的觉醒」，推动AI视频从「素材生成」迈向「内容生成」时代，让创作者专注创意表达。

蔡浩宇新公司Anuttacon上线AnuNeko，或重塑游戏"制造"方式！

2025年12月1日，蔡浩宇在美国的AI新公司Anuttacon上线聊天产品"AnuNeko"，名字结合其网络"说话带喵"习惯。该产品与主流AI不同，是针对未来游戏NPC的布局实验。交互特别，多日常对话，保持"真人感"，擅长反问主导对话；有"Orange Cat"和"Exotic Shorthair"两种人格模型，回答意外；界面有评判按钮，团队或用早期数据训练模型。它砍掉联网搜索等，专注打磨性格和逻辑。Anuttacon约50人团队，一半是米哈游旧部，一半来自大厂。今年8月该公司曾发布语音AI互动实验游戏《群星低语》。AnuNeko可能只是开端，蔡浩宇或想做通用AI NPC生成平台改变游戏制作方式，但目前产品尚处早期，会胡言乱语，官方有免责声明。

英伟达推出Alpamayo-R1：让自动驾驶AI推理能力大升级

英伟达推出推理版VLA------Alpamayo-R1（AR1），旨在提升自动驾驶AI的推理能力。当前自动驾驶模型存在"想明白"的瓶颈，传统端到端系统在"长尾场景"表现不佳。AR1有多项核心创新，如引入因果链（CoC）数据集、采用扩散式轨迹解码器、实施多阶段训练策略等。实验显示，AR1在规划精度等方面有显著提升，尤其在"长尾场景"，端到端延迟为99 ms。其输入经视觉编码成多模态token序列，CoC数据集采用"人机协同标注"。训练分监督微调、因果链监督、强化学习后训练优化三个阶段。未来，AR1将推动自动驾驶从"黑箱"到"白箱"转变。

论文：https://research.nvidia.com/publication/2025-10_alpamayo-r1

华为开源openPangu-R-7B-Diffusion：扩散语言模型新突破

华为新开源扩散语言模型openPangu-R-7B-Diffusion，今年文本生成领域正从自回归向扩散语言模型转变，但长序列训练不稳定和上下文窗口限制是扩散模型发展痛点。该模型基于openPangu-Embedded-7B少量数据续训练，将上下文长度扩展至32K，凭借"慢思考"能力在多学科知识、数学推理、代码生成等权威基准中创7B参数量级全新SOTA纪录。技术上，架构融合自回归的前文因果注意力掩码，消除适配壁垒、降低成本并继承预训练知识；训练与推理延续BlockDiffusion思路并优化，Context利用率达100%，有"自回归 + 扩散"双模式解码能力，并行解码速度最高达自回归解码的2.5倍。可视化实测中，输入数学逻辑推理题，模型4步内将 $MASK$ 噪声去噪还原，Token标志"慢思考"模式启动。此模型发布回应了"扩散模型能否处理复杂长文本"难题，证明其可"快"可"深"，且全流程在昇腾NPU集群完成，体现国产算力实力。

Base模型链接：https://ai.gitcode.com/ascend-tribe/openPangu-7B-Diffusion-Base
慢思考模型链接：https://ai.gitcode.com/ascend-tribe/openPangu-R-7B-Diffusion

亚马逊云科技AWS re:Invent盛会发布多项重磅AI新品

智东西报道，亚马逊云科技（AWS）在年度云计算产业盛会AWS re:Invent上发布系列重磅AI新品。新基建方面，有采用英伟达GB300 NVL72系统、性能提升的P6e - GB300，满足企业私有化部署需求的AWS AI Factories，高性价比的Amazon EC2 Trainium3 UltraServers，以及预计性能大幅提升的下一代AI芯片Trainium4；新模型方面，Amazon Bedrock新增18款全托管开源模型，Nova 2系列首发4款不同特性模型；新服务方面，Amazon Nova Forge支持企业构建定制前沿模型；新工具方面，有设置agent行动边界的Policy in AgentCore预览版和监控分析Agent表现的AgentCore Evaluations全托管服务；新智能体方面，包含创建自定义代码转换智能体的AWS Transform Custom等4种智能体；还有7款新实例、6项Amazon S3存储升级等更新。

"欧洲的DeepSeek"Mistral AI发布Mistral 3系列开放模型

2025年12月3日，"欧洲的DeepSeek"Mistral AI发布新一代开放模型Mistral 3系列，全线采用Apache 2.0许可证。该系列包含Ministral 3（14B、8B、3B）和Mistral Large 3，前者号称"世界上最好的小型模型"，有多种版本且性价比高，14B变体在AIME '25准确率达85%；后者是前沿级开源MoE，有图像理解和多语言对话能力，排名靠前。Mistral AI与vLLM、Red Hat、英伟达合作，提升模型运行和推理效率。模型即日起可在多个平台使用，即将在NVIDIA NIM和AWS SageMaker上线，还为组织提供定制服务。此外，Mistral此次回归Apache 2.0协议或受DeepSeek影响，是对其的正面追赶。

官网介绍：https://mistral.ai/news/mistral-3
体验地址：https://x.com/MistralAI/status/1995872766177018340

可灵2.6全量上线：首个音画同出模型震撼登场

2025年12月3日，可灵2.6全量上线并推出首个音画同出模型。该模型单次生成可同时产出画面、自然语音、匹配音效和环境氛围，打通"音""画"世界，且Web端与App端双端同步，方便创作。创作路径有文生音画（从一句话生成完整音视频）和图生音画（让静态画面开口说话、动起来，新手也能一键成片）。适配场景广泛，包括单人独白（如服装直播间主播展示卫衣）、旁白解说（如世界杯决赛赛场解说）、多人对白（如赌场VIP室男女对话）、音乐表演（如美裔rapper街头说唱）、创意场景（如直播桌面触发音场景）。目前官网介绍、论文、体验地址、Github、huggingface、下载地址均未提供。

阿里千问上线"最强"学习模型，免费功能对标OpenAI/谷歌！

据智东西2025年12月3日报道，阿里千问上线"最强"学习模型Qwen3-Learning，基于Qwen3训练。该模型面向学习场景发布拍题答疑、作业批改两项重要更新，功能对标OpenAI/谷歌付费功能且免费不限次。其独家资料库覆盖全学段、全学科，有海量真题和解析，答案准确率高，解题与批改能力强。从家长和学生角度，拍题答疑几秒出答案且步骤清晰，作业批改可整页多题同时进行，能识别不同字体还可总结答题情况；从大学生角度，它跨文理、能读图，可写专业论文，可准确识别复杂照片中的题目。此外，该模型结合多种能力，经针对性训练和适配可在工业检测、医疗辅助、金融分析等专业领域发挥价值。

理想AI眼镜Livis：轻快好兼具，开启AI眼镜新战局

理想汽车在AI眼镜领域的探索与布局。其推出的AI眼镜Livis亮点颇多，镜架仅重36克，为全球最轻，采用超轻新材料与超薄结构设计，且车控、抓拍、AI响应和充电速度快，还具备八大优势。研发方面，理想2020年开始相关研究，去年初判断可行后六七月份完成原型并立项，由歌尔负责生产且按汽车标准管控质量。战略上，AI眼镜是具身智能重要形态，发展分三步推进，应用策略短期内聚焦基础问题。理想加入AI眼镜战局，优势在于整合内部资源和车机联动体验，范皓宇预测"AI眼镜的iPhone时刻"或在2027 - 2028年到来。

2025 腾讯广告算法大赛收官：技术碰撞，推动行业进步

历时 4 个月的"腾讯广告算法大赛"落下帷幕，来自全球 30 个国家的 8400 多名技术精英、2800 余支战队参与其中，"Echoch""leejt""也许明天"战队分获前三甲，前十名全员获得鹅厂 Offer 意向书。本次大赛核心赛题为"全模态生成式推荐"，直击广告行业痛点，腾讯提供了不同量级的脱敏"用户全模态序列"数据供选手挑战。选手们面临多模态噪声与缺失、超大规模稀疏 ID、冷启动、特征种类多且复杂等难题。冠军战队方案亮点十足，"Echoch"战队聚焦"生成式行为条件化建模"，"leejt"战队设计"Encoder-Decoder"架构，"也许明天"战队探讨广告推荐系统 Scaling Law。大赛在技术探索、人才培养、生态共建方面意义重大，选手采用"分布式"工业级做法处理数据，腾讯构建"以赛育才、以赛选才"生态，还将开源数据集推动多模态推荐领域进步。

OpenAI新模型、新功能与广告争议齐上阵，GPT-5.2发布引猜测

本周OpenAI动态不断，爆料称有四个"企鹅家族"神秘新模型在DesignArena测试，帝企鹅Emperor或为全新SOTA旗舰模型，发布时间未知；预计下一周推出代号"Shallotpeat"且领先谷歌Gemini 3的推理模型，代号"Garlic"的模型已完成预训练，预计明年初以GPT-5.2/GPT-5.5发布。同时，OpenAI推出"记忆搜索"功能优化ChatGPT体验，虽暂不可用但或在测试中。不过，ChatGPT推送广告引发付费用户争议，网友威胁若不能关闭广告将取消订阅。此外，许多人猜测OpenAI可能提速发布GPT-5.2，若记忆搜索和新模型前后脚上线，或借此抗压坐实ChatGPT"海量信息管理生产力工具"地位。

可灵数字人2.0全量上线，三大突破引领行业新高度

可灵数字人2.0于2025年12月4日23:00全量上线，用户在可灵官网即可体验其功能。通过上传角色图、添加配音内容、描述角色表现三步即可生成数字人。此次更新相比旧版有三大突破性改变：一是表现力显著提升，手部及口型精准控制，表演力全面进化，细节把控到位，告别AI感；二是打破时长限制，单次生成视频最长支持5分钟，适用于多种长内容场景；三是经多维度客观评测，效果胜负比综合得分远超同类产品，展现出行业领先实力。

火山引擎发布豆包图像创作模型Seedream 4.5，开启视觉创作新体验

2025年12月3日19:39，火山引擎正式发布豆包图像创作模型Seedream 4.5并开启公测。该模型升级亮点包括强化多图组合生成能力、优化海报排版与Logo设计功能，支持高精度图文混排，还全面支持多领域核心场景应用。其能力特性有极致一致性、精准指令遵循、通识与空间重构和电影级美学。在广告营销、电商运营、影视创作等场景能发挥重要作用，降低视觉创作门槛。

Meta挖角苹果大将，AI人才战升级

2025年12月4日，Meta首席执行官马克·扎克伯格官宣苹果人机交互设计副总裁艾伦·戴伊将加入Meta，12月31日起正式担任Meta首席设计官，其副手比利·索伦蒂诺也会一同加入。戴伊在苹果工作19年，参与过众多重要产品设计。Meta为其建立新设计工作室，他将负责硬件、软件及AI界面整合设计。今年苹果人事变动频繁，除戴伊外，还有AI业务主管等多位核心人员离职。此次人事变动体现了硅谷AI人才争夺战激烈，Meta全力押注AI硬件和超级智能，而苹果新品研发因核心成员流失面临更多不确定性。消息来源为彭博社、X、Instagram。

OpenAI新研究：让GPT-5-Thinking学会忏悔以解决大模型撒谎问题

OpenAI在GPT-5-Thinking上开展忏悔训练（Confessions）研究，旨在解决大模型撒谎问题。核心思路是让模型回答问题后生成"忏悔报告"，实验显示在该模型上有效，"忏悔"比"原回答"诚实且不影响原任务表现。具体方法借鉴宗教告解室，关键在于奖励信号隔离，以25%概率进行告解训练。在12个诱发不良行为的评估数据集上测试，模型违规时忏悔承认概率高，"假阴性"概率仅4.36% ，训练后在部分评估上准确率提升但事实类幻觉评估改进有限。失败案例分析指出假阴性和假阳性原因，该方法存在不能阻止不良行为等局限性。未来OpenAI将其定位为监控和诊断工具，计划扩大训练规模并与其他安全技术配合使用。

论文：https://openai.com/index/how-confessions-can-keep-language-models-honest/

杭州瞳行科技发布国内首款AI助盲眼镜，为视障人士出行带来新希望

在2025年12月3日国际残疾人日，杭州瞳行科技公司发布国内首款基于通义千问Qwen-VL、OCR等系列模型打造的AI助盲眼镜。该眼镜具有出行避障、找物读物等功能，出行场景能实现300ms超低延迟并每步给出道路提示。鉴于中国超1700万视力障碍人士出行存在诸多难题且缺乏普及助盲工具的背景，瞳行将自研视觉模型与通义千问结合，配合硬件打造低延时避障能力并针对不同场景调优模型。产品由眼镜主体、手机、遥控指环、盲杖四部分组成，已正式面市，借助通义千问可快速实现所需功能得益于大模型降低了算力成本。