Meta 上周宣布正式开源小型语言模型 MobileLLM 系列

在 7 月发布之后，Meta 上周宣布正式开源能够在智能手机上运行的小型语言模型 MobileLLM 系列。

Meta 在四个月前发布了这两个参数量小于 10 亿的语言模型 MobileLLM 125M 及 MobileLLM 350M。如今，Meta 又开发出了更大参数量的模型版本，包括 MobileLLM - 600M/1B/1.5B。

Meta 指出，团队全面考虑了多项设计因素，并整合了 SwiGLU 激活函数、"深而精简"架构、内嵌共享以及群组查询注意力机制来开发出 MobileLLM 模型。从成果来看，MobileLLM 125M/350M 在零样本常识理解任务中的准确率，比 Cerebras、OPT、BLOOM 等先进模型分别高 2.7%和 4.3%。根据 Meta 提供的数据，新增的模型成员如 MobileLLM - 1.5B，更是超越了 GPT - neo - 2.7B、OPT - 2.7B、BLOOM - 3B、Qwen 1.5 - 1.8B 与 Pythia - 2.8B 等参数量较大的其他模型。

Meta 也强调 MobileLLM 训练快速。在 32 颗 Nvidia A100 80G GPU 的服务器环境下，以 1T 字词训练不同参数量的 MobileLLM 所需天数，1.5B 版本只要 18 天，最小的 125M 更只需 3 天。这些模型都已通过 GitHub 与 Hugging Face 开源。

随着智能手机性能日益强大，以及用户对高速响应、低延迟、安全性的需求，越来越多的模型开发商提供小模型。谷歌有 Gemma 2，微软有 Phi 3，OpenAI 则有 GPT - 4o mini，苹果有 DCLM。Hugging Face 上周也公布了小语言模型 SmolLM 2 家族。

在这一趋势下，小型语言模型的竞争愈发激烈。各大科技公司纷纷投入大量资源，不断优化和创新自己的产品。MobileLLM 系列的开源无疑为整个行业带来了新的活力和机遇。开发者们可以基于这些开源模型进行进一步的改进和创新，为用户提供更加个性化、高效的服务。

同时，随着小模型的不断涌现，对于模型的评估和比较也变得尤为重要。未来，可能会出现更加科学、全面的评估标准，以帮助用户更好地选择适合自己需求的语言模型。此外，安全性和隐私保护也将是小模型发展过程中需要重点关注的问题。只有在确保用户数据安全的前提下，小模型才能真正赢得用户的信任和广泛应用。

可以预见，在未来的日子里，小型语言模型将在智能手机等移动设备上发挥越来越重要的作用，为人们的生活和工作带来更多的便利和创新。