小语言模型是真正的未来

英伟达表示，大多数人工智能代理不需要巨大的模型。小语言模型是真正的未来

NVIDIA 的新论文《小型语言模型是代理人工智能的未来》深入探讨了为什么当今对越来越大的语言模型（LLM）的痴迷在现实世界的人工智能代理方面可能会被错误地定位。以下是他们的论点和发现的详细介绍，并为构建者和技术读者进行了细分：

What's the Problem? 怎么了？

LLMs （如 GPT-4、Gemini、Claude）非常适合开放式对话和"无所不能"的人工智能，但为每个自动化代理部署它们有点矫枉过正。现实生活中的大多数代理人工智能都会处理日常、重复和专业 的任务------想想电子邮件分类、表单提取或结构化网络抓取。使用一个巨大的法学硕士就像租一枚火箭只是为了送披萨。

NVIDIA's Position: 英伟达的立场：

他们认为， 小型语言模型（SLM） ------参数较少的模型，在 10B 下思考------通常同样能够胜任这些代理工作。论文要点：

SLM 足够高效和强大：** SLM 已经达到了这样一个水平，对于许多代理任务（结构化数据、API 调用、代码片段），它们的执行速度与 LLM 几乎相同，但使用的计算、内存和能源要少得多。
- 实际实验表明，SLM 在速度、延迟和运营成本方面可以与 LLM 相媲美甚至优于 LLM，尤其是在范围狭窄且指令清晰的任务上。
最佳用途：专业的重复性任务**
- "代理 AI"（将多个步骤、API 或微服务链接在一起的 AI 系统）的兴起意味着更多的工作负载是可预测的和特定于领域的。
- SLM 擅长简单的规划、解析、查询生成，甚至代码生成，只要这项工作不需要广泛的世界知识。
混合动力系统是未来：**

diff 复制代码

-    不要扔掉LLMs！相反，管道请求：让 SLM 处理大部分代理工作，仅针对模棱两可、复杂或创造性的查询升级为大型 LLM。

diff 复制代码

-   他们概述了一种方法（"LLM 到 SLM 代理转换算法"），用于系统地迁移基于 LLM 的代理系统，以便团队可以在不破坏事情的情况下转移流量。

经济和环境影响：**

diff 复制代码

-   SLM 允许在边缘设备、受监管的环境中以更低的成本进行更广泛的部署。

markdown 复制代码

-   他们认为，即使整个人工智能行业从法学硕士部分*转向* SLM，也可以显着降低运营成本和碳足迹。

障碍和"开放性问题"：**

diff 复制代码

-    团队仍在为巨型模型构建，因为基准测试侧重于一般智能，而不是代理任务。该白皮书呼吁制定新的、特定于任务的基准，以衡量业务或工作流程自动化中真正重要的因素。

diff 复制代码

-   存在惯性（投资基础设施，对"降级"的恐惧）会减缓 SLM 的采用，即使客观上它更好。

** 号召**
- NVIDIA 邀请反馈和贡献，规划为 SLM 优化代理开源工具和框架，并呼吁该领域采用新的最佳实践。
- 作者强调，这种转变并不是"反 LLMs"，而是推动人工智能架构与适合这项工作的工具相匹配。

为什么这是一件大事：

随着 genAI 从炒作到生产，成本、速度和可靠性最为重要，而 SLM 可能是使代理 AI 真正可扩展的被忽视的主力。
该论文可能会激发新的初创公司和专门围绕 SLM 构建的人工智能堆栈，引发行业"规模调整"运动。

** 警告：**

SLM （还）不能替代所有 LLM 用例;混合模式是关键。
需要新的指标和社区基准来跟踪 SLM 性能。