Apple 设备端与服务器端基础语言模型更新这篇来自 Apple 机器学习研究团队的文章深入探讨了 Apple 智能背后新的语言基础模型的技术进步。它介绍了一个紧凑的、约为 30 亿参数的端侧模型,该模型针对 Apple 芯片进行了优化,以及一个用于私有云计算的全新并行轨道混合专家 (PT-MoE) 服务器模型。文章详细介绍了新的架构设计,包括优化的 KV 缓存使用、用于长上下文(高达 65K tokens,即 tokens)的交错注意力和带有寄存器窗口机制的多模态视觉编码器。它还描述了广泛且精心策划的训练数据来源(授权的、公共的、Applebot