科技信息差（9.29）

1.苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

Manzano 的整体架构包括三部分：混合分词器、统一语言模型，以及独立的图像解码器。苹果为解码器构建了三个版本，参数规模分别为 9 亿、17.5 亿和 35.2 亿，支持 256 像素至 2048 像素分辨率。

训练过程分为三个阶段，使用 23 亿对图像-文本样本（来自公开和内部数据），以及 10 亿对文本-图像样本，总计处理 1.6 万亿标记。部分训练数据来自合成生成，如 DALL-E3 和 ShareGPT-4o。

在内部测试中，Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异，尤其在图表和文档分析等文字密集型任务中，300 亿参数版本成绩突出。扩展测试显示，模型性能随规模提升而持续改善，例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

苹果还将统一模型与专业化系统对比，差距仅为个位数分值：在 30 亿参数版本中，差距不到 1 分。在图像生成测试中，Manzano 亦接近前列，可执行复杂指令、风格迁移、图像叠加与深度估计等任务。

苹果认为，Manzano 是现有模型的有力替代方案，其模块化设计可支持各部分独立更新，并借鉴不同研究领域的训练方法，有潜力推动未来多模态 AI 的发展。

不过，目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架，苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展，但是否能减少对外部模型的依赖，还需未来版本进一步验证。

Meta旗下的人工智能研究部门FAIR（Facebook AI Research）发布了全球首个代码世界模型（CWM），把"世界模型"（World Model）用在了代码生成上。

"预训练"（Pre-training）找了8万亿（8T）个tokens的通用代码和自然语言资料，先让模型把基础打好，学会认字、组词、造句，对代码有个基本的理解。

"中段训练"（Mid-training），模型不再是简单地看静态代码了，而是开始大规模观摩代码的"现场直播"。Meta准备了超过3万个可执行的Docker容器镜像，这玩意可以理解为一个个打包好的、真实的软件运行环境。然后，他们让超过2亿条Python程序在这些环境里跑起来。

跑的时候，CWM全程在旁边盯着。它记录下程序内存里发生的一切，形成所谓的"内存轨迹"（memory traces）。比如一个变量被赋值了，一个函数被调用了，一个列表的元素被修改了，甚至程序抛出了一个异常，这些细节全都被CWM看在眼里，记在心里。

这就像让一个医学生不光背诵理论，还直接把他扔到手术室里，观摩成千上万台手术，看主刀医生怎么处理各种状况，看病人的生命体征如何变化。

训练数据里还包括300万条模拟的智能体交互轨迹。在这些轨迹里，模型需要自己尝试和文件系统、解释器这些计算环境打交道，完成一个个小任务，在一次次交互和试错中，学习行为和结果之间的因果关系。

经过这个阶段5万亿tokens数据的"熏陶"，CWM逐渐就有了"代码感"，也就是对代码执行动态的理解能力。

"后训练"（Post-training）阶段则包含监督微调（SFT）和强化学习（RL）。监督微调主要是教模型如何更好地理解和遵循人类的指令。而强化学习则更有意思，它不是靠人来打分（RLHF），而是靠环境来反馈。

比如，让CWM去修复一个bug，修复成功了，单元测试通过了，环境就给它一个"奖励"；修复失败了，就给个"惩罚"。让它去证明一道数学题，证明对了，奖励；证错了，惩罚。这种来自环境的、可验证的奖励信号，比人的主观判断要客观、高效得多，也更容易规模化。

通过这种方式，CWM的各项专业技能被进一步打磨，最终成型。

CWM是一个拥有320亿（32B）参数的"大块头"，属于稠密（dense）架构模型。

它最长能处理131,072个tokens的上下文，这意味着它可以一口气读完一个非常非常长的代码文件，理解里面的来龙去脉，这对于处理复杂的现代软件项目至关重要。

在最核心的注意力机制上，CWM也玩了点新花样。它没有一视同仁，而是创新地把局部注意力和全局注意力结合起来用，并且按3:1的比例交替进行。

局部注意力的"视野"是8192个tokens，负责精读一小段代码里的细节。全局注意力的"视野"则拉满到131,072个tokens，负责鸟瞰整个代码文件的宏观结构。

这种设计很聪明，就像我们读一本书，既要仔细看懂当前这一页的字句，也要时不时抬头想想这一章和前后章节的联系。这样既能高效处理局部逻辑，又不会丢失长距离的依赖关系，比如一个在文件开头定义的函数，在文件末尾被调用了，模型也能捕捉到。

为了在保持高性能的同时省点力气，CWM还用了分组查询注意力（Grouped-Query Attention, GQA）技术，算是一种在效果和计算开销之间的精明平衡。