简介(Introduction)
小型语言模型(SLMs)正迅速成为人工智能实践的代表。它们速度更快、智能更高、效率更佳,以大型模型计算、内存与能耗的一小部分实现强大的性能表现。
AI 社区的一个新趋势是:利用大型语言模型(LLMs)生成合成数据集,然后用这些数据微调小型模型,使其在特定任务或风格上表现更佳。由此,SLMs 变得更聪明、更高效、更具针对性,同时仍保持紧凑体积。这意味着,你可以将这些智能模型直接嵌入无需持续联网的系统,实现设备端智能,保障隐私,加快响应,提升可靠性。
本教程将介绍几款在 AI 领域引起广泛关注的小型语言模型,对比它们的规模与性能,帮助你了解最适合自身需求的方案。

1. google/gemma-3-270m-it
Gemma 3 270M 是 Gemma 3 系列中最小、最轻量化的模型,专为高效性与易用性而设计。仅有 2.7 亿参数,可在计算资源有限的设备上流畅运行,非常适合实验、原型开发与轻型应用。
尽管体积小巧,该模型支持 32K 上下文窗口,能处理包括基础问答、摘要生成与推理在内的多种任务。
2. Qwen/Qwen3-0.6B
Qwen3-0.6B 是 Qwen3 系列中最轻量的变体,以高效与性能平衡为目标。拥有 6 亿参数(不含嵌入层为 4.4 亿),在能力与资源占用之间取得良好平衡。
该模型可在"思考模式"与"非思考模式"间自由切换:前者用于复杂推理、数学和编程任务,后者用于快速对话。它支持 32K 上下文长度,并具备 100 多种语言的多语言支持能力。
3. HuggingFaceTB/SmolLM3-3B
SmolLM3-3B 是一款小型但强大的开源语言模型,旨在突破小模型的性能边界。拥有 30 亿参数,能在推理、数学、编程及多语言任务中展现强劲表现,同时保持高效与开放性。
SmolLM3 支持双模式推理:复杂问题可启用"思考模式",而一般对话则采用轻量快速模式。除文本生成外,它还支持工具调用,使其可用于代理型应用场景。
作为完全开放的模型,SmolLM3 提供公开的训练细节、权重与检查点,为研究人员与开发者构建具备推理能力的 3B--4B 规模 AI 系统提供透明而高性能的基础。
4. Qwen/Qwen3-4B-Instruct-2507
Qwen3-4B-Instruct-2507 是 Qwen3-4B 系列的最新指令微调版本,专为"非思考模式"优化。拥有 40 亿参数(不含嵌入层为 36 亿),在指令执行、逻辑推理、文本理解、数学、科学、编程及工具使用等方向上均有显著提升,并扩展了多语言的知识覆盖。
该版本不生成推理标记,从而提供更快速、高效的响应表现;同时,它在开放式与创造性任务(如写作、对话、主观推理)中对用户意图的契合度更高。
5. google/gemma-3-4b-it
Gemma 3 4B 模型是 Gemma 3 系列的多模态指令微调版本,可同时处理文本与图像输入,输出高质量的文本结果。
它拥有 40 亿参数,并支持 128K 上下文长度,擅长问答、摘要、推理及图像理解任务。该模型常用于微调任务,包括文本分类、图像分类与特定领域应用,从而进一步增强其专业化与性能。
6. janhq/Jan-v1-4B
Jan-v1 是 Jan 系列的首款模型,专为 Jan 应用中的代理型推理与问题求解构建。基于 Lucy 模型,并采用 Qwen3-4B-thinking 架构,具备强化的推理能力、工具调用能力和卓越的复杂任务执行性能。
通过扩展参数并优化微调,该模型在 SimpleQA 数据集上取得了 91.1% 的准确率,这是同规模模型在事实问答领域的重要里程碑。它针对本地部署进行了优化,可在 Jan App、vLLM 和 llama.cpp 框架下高效运行。
7. microsoft/Phi-4-mini-instruct
Phi-4-mini-instruct是微软 Phi-4 系列中的轻量型模型,拥有 38 亿参数,专为高效推理、指令执行和安全部署设计,适用于科研与商业应用。
其训练数据包含高质量网页数据、合成"教材式"推理数据及精心筛选的监督指令数据,规模达 5 万亿标记,并支持 128K 上下文长度。
该模型擅长数学、逻辑与多语言任务,支持函数调用与 20 多种语言生成,兼容 vLLM 与 Transformers 框架,部署灵活。
结论(Conclusion)
本文探讨了新一代轻量化却强大的开源语言模型,它们正以高效、灵活与智能的方式重新定义 AI 的未来。
从 Google 的 Gemma 3 系列(包括超轻型 gemma-3-270m-it 与多模态 gemma-3-4b-it),到 Qwen 的 Qwen3 系列(高效的 Qwen3-0.6B 与长上下文优化的 Qwen3-4B-Instruct-2507),再到 SmolLM3-3B、Jan-v1-4B 与微软的 Phi-4-mini-instruct,这些模型共同展现出:通过规模缩减与精调,小模型亦能拥有出色的推理与多语言能力。