科技信息差(9.29)

🌍V5 强势发布!Vue3 生态最强大的 3D 开发框架!

**✨**DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA

**1.**苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。

训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。

在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。

苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。

不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。

2.杨立昆团队将世界模型塞进了代码生成,AI也能一边写一边"调试"代码了

Meta旗下的人工智能研究部门FAIR(Facebook AI Research)发布了全球首个代码世界模型(CWM),把"世界模型"(World Model)用在了代码生成上。

"预训练"(Pre-training)找了8万亿(8T)个tokens的通用代码和自然语言资料,先让模型把基础打好,学会认字、组词、造句,对代码有个基本的理解。

"中段训练"(Mid-training),模型不再是简单地看静态代码了,而是开始大规模观摩代码的"现场直播"。Meta准备了超过3万个可执行的Docker容器镜像,这玩意可以理解为一个个打包好的、真实的软件运行环境。然后,他们让超过2亿条Python程序在这些环境里跑起来。

跑的时候,CWM全程在旁边盯着。它记录下程序内存里发生的一切,形成所谓的"内存轨迹"(memory traces)。比如一个变量被赋值了,一个函数被调用了,一个列表的元素被修改了,甚至程序抛出了一个异常,这些细节全都被CWM看在眼里,记在心里。

这就像让一个医学生不光背诵理论,还直接把他扔到手术室里,观摩成千上万台手术,看主刀医生怎么处理各种状况,看病人的生命体征如何变化。

训练数据里还包括300万条模拟的智能体交互轨迹。在这些轨迹里,模型需要自己尝试和文件系统、解释器这些计算环境打交道,完成一个个小任务,在一次次交互和试错中,学习行为和结果之间的因果关系。

经过这个阶段5万亿tokens数据的"熏陶",CWM逐渐就有了"代码感",也就是对代码执行动态的理解能力。

"后训练"(Post-training)阶段则包含监督微调(SFT)和强化学习(RL)。监督微调主要是教模型如何更好地理解和遵循人类的指令。而强化学习则更有意思,它不是靠人来打分(RLHF),而是靠环境来反馈。

比如,让CWM去修复一个bug,修复成功了,单元测试通过了,环境就给它一个"奖励";修复失败了,就给个"惩罚"。让它去证明一道数学题,证明对了,奖励;证错了,惩罚。这种来自环境的、可验证的奖励信号,比人的主观判断要客观、高效得多,也更容易规模化。

通过这种方式,CWM的各项专业技能被进一步打磨,最终成型。

它的身体构造有何不同

CWM是一个拥有320亿(32B)参数的"大块头",属于稠密(dense)架构模型。

它最长能处理131,072个tokens的上下文,这意味着它可以一口气读完一个非常非常长的代码文件,理解里面的来龙去脉,这对于处理复杂的现代软件项目至关重要。

在最核心的注意力机制上,CWM也玩了点新花样。它没有一视同仁,而是创新地把局部注意力和全局注意力结合起来用,并且按3:1的比例交替进行。

局部注意力的"视野"是8192个tokens,负责精读一小段代码里的细节。全局注意力的"视野"则拉满到131,072个tokens,负责鸟瞰整个代码文件的宏观结构。

这种设计很聪明,就像我们读一本书,既要仔细看懂当前这一页的字句,也要时不时抬头想想这一章和前后章节的联系。这样既能高效处理局部逻辑,又不会丢失长距离的依赖关系,比如一个在文件开头定义的函数,在文件末尾被调用了,模型也能捕捉到。

为了在保持高性能的同时省点力气,CWM还用了分组查询注意力(Grouped-Query Attention, GQA)技术,算是一种在效果和计算开销之间的精明平衡。

相关推荐
TL滕3 分钟前
从0开始学算法——第十六天(双指针算法)
数据结构·笔记·学习·算法
java_logo6 分钟前
LinuxServer.io LibreOffice 容器化部署指南
java·开发语言·docker·dubbo·openoffice·libreoffice·opensource
꧁坚持很酷꧂6 分钟前
Windows安装Qt Creator5.15.2(图文详解)
开发语言·windows·qt
蒲小英19 分钟前
算法-贪心算法
算法·贪心算法
Alpha first20 分钟前
C++核心知识点梳理:类型兼容、多继承与虚基类
开发语言·c++
.小小陈.21 分钟前
C++初阶9:list使用攻略
开发语言·c++·学习·list
mit6.82422 分钟前
链式投票|流向贪心
算法
qq_5895681024 分钟前
@NotBlank与@NotEmpty注解无法导入
java·开发语言
阿蒙Amon27 分钟前
JavaScript学习笔记:11.对象
javascript·笔记·学习
阿蒙Amon27 分钟前
JavaScript学习笔记:9.数组
javascript·笔记·学习