Meta 上周宣布正式开源小型语言模型 MobileLLM 系列

在 7 月发布之后,Meta 上周宣布正式开源能够在智能手机上运行的小型语言模型 MobileLLM 系列。

Meta 在四个月前发布了这两个参数量小于 10 亿的语言模型 MobileLLM 125M 及 MobileLLM 350M。如今,Meta 又开发出了更大参数量的模型版本,包括 MobileLLM - 600M/1B/1.5B。

Meta 指出,团队全面考虑了多项设计因素,并整合了 SwiGLU 激活函数、"深而精简"架构、内嵌共享以及群组查询注意力机制来开发出 MobileLLM 模型。 从成果来看,MobileLLM 125M/350M 在零样本常识理解任务中的准确率,比 Cerebras、OPT、BLOOM 等先进模型分别高 2.7%和 4.3%。根据 Meta 提供的数据,新增的模型成员如 MobileLLM - 1.5B,更是超越了 GPT - neo - 2.7B、OPT - 2.7B、BLOOM - 3B、Qwen 1.5 - 1.8B 与 Pythia - 2.8B 等参数量较大的其他模型。

Meta 也强调 MobileLLM 训练快速。在 32 颗 Nvidia A100 80G GPU 的服务器环境下,以 1T 字词训练不同参数量的 MobileLLM 所需天数,1.5B 版本只要 18 天,最小的 125M 更只需 3 天。这些模型都已通过 GitHub 与 Hugging Face 开源。

随着智能手机性能日益强大,以及用户对高速响应、低延迟、安全性的需求,越来越多的模型开发商提供小模型。谷歌有 Gemma 2,微软有 Phi 3,OpenAI 则有 GPT - 4o mini,苹果有 DCLM。Hugging Face 上周也公布了小语言模型 SmolLM 2 家族。

在这一趋势下,小型语言模型的竞争愈发激烈。各大科技公司纷纷投入大量资源,不断优化和创新自己的产品。MobileLLM 系列的开源无疑为整个行业带来了新的活力和机遇。开发者们可以基于这些开源模型进行进一步的改进和创新,为用户提供更加个性化、高效的服务。

同时,随着小模型的不断涌现,对于模型的评估和比较也变得尤为重要。未来,可能会出现更加科学、全面的评估标准,以帮助用户更好地选择适合自己需求的语言模型。此外,安全性和隐私保护也将是小模型发展过程中需要重点关注的问题。只有在确保用户数据安全的前提下,小模型才能真正赢得用户的信任和广泛应用。

可以预见,在未来的日子里,小型语言模型将在智能手机等移动设备上发挥越来越重要的作用,为人们的生活和工作带来更多的便利和创新。

相关推荐
夕小瑶7 分钟前
Claude Code 保姆级上手教程(2026 版)
人工智能·python
笨蛋©9 分钟前
[技术深挖] 2026年CAD图纸气泡图数字化处理规范与FAI检验计划实务
ai·数字化·cad·质量管理·制造业
坏小虎13 分钟前
LazyGit + Codex 自动生成中文 Commit Message 完整配置指南
ai
心态与习惯25 分钟前
人工智能对管理科学与工程科研的冲击
人工智能·科研·读博·冲击·管科
sinat_2869451926 分钟前
gitnexus vs graphify
人工智能
Ztopcloud极拓云视角31 分钟前
Claude Opus 4.8 实战接入指南:动态工作流 + 思考投入控制深度使用
大数据·人工智能·gpt·claude·deepseek
cxr82835 分钟前
高分子复合材料 AI 逆向设计合—— 认知基座与理论框架
人工智能·材料逆向设计合成
落叶无情37 分钟前
第二章 ICEF核心知识解读 第二节 ICEF:从“规律驱动提示“到“世界规律认知操作系统“的范式跃迁
人工智能
逻辑君38 分钟前
Foresight研究报告【20260014】
人工智能·深度学习
FserSuN38 分钟前
Machine Learning Specialization - Week 1, 9-20学习总结
人工智能·学习·机器学习