小语言模型是真正的未来

英伟达表示,大多数人工智能代理不需要巨大的模型。小语言模型是真正的未来

NVIDIA 的新论文《小型语言模型是代理人工智能的未来》深入探讨了为什么当今对越来越大的语言模型 (LLM) 的痴迷在现实世界的人工智能代理方面可能会被错误地定位。以下是他们的论点和发现的详细介绍,并为构建者和技术读者进行了细分:

What's the Problem? 怎么了?

LLMs (如 GPT-4、Gemini、Claude)非常适合开放式对话和"无所不能"的人工智能,但为每个自动化代理部署它们有点矫枉过正。现实生活中的大多数代理人工智能都会 处理日常、重复和专业 的任务------想想电子邮件分类、表单提取或结构化网络抓取。使用一个巨大的法学硕士就像租一枚火箭只是为了送披萨。

NVIDIA's Position: 英伟达的立场:

他们认为, 小型语言模型 (SLM) ------参数较少的模型,在 10B 下思考------通常同样能够胜任这些代理工作。论文要点:

  • SLM 足够高效和强大:** SLM 已经达到了这样一个水平,对于许多代理任务(结构化数据、API 调用、代码片段),它们的执行速度与 LLM 几乎相同,但使用的计算、内存和能源要少得多。

    • 实际实验表明,SLM 在速度、延迟和运营成本方面可以与 LLM 相媲美甚至优于 LLM,尤其是在范围狭窄且指令清晰的任务上。
  • 最佳用途:专业的重复性任务**

    • "代理 AI"(将多个步骤、API 或微服务链接在一起的 AI 系统)的兴起意味着更多的工作负载是可预测的和特定于领域的。
    • SLM 擅长简单的规划、解析、查询生成,甚至代码生成,只要这项工作不需要广泛的世界知识。
  • 混合动力系统是未来:**

diff 复制代码
-    不要扔掉LLMs!相反,管道请求:让 SLM 处理大部分代理工作,仅针对模棱两可、复杂或创造性的查询升级为大型 LLM。
diff 复制代码
-   他们概述了一种方法("LLM 到 SLM 代理转换算法"),用于系统地迁移基于 LLM 的代理系统,以便团队可以在不破坏事情的情况下转移流量。
  • 经济和环境影响:**
diff 复制代码
-   SLM 允许在边缘设备、受监管的环境中以更低的成本进行更广泛的部署。
markdown 复制代码
-   他们认为,即使整个人工智能行业从法学硕士部分*转向* SLM,也可以显着降低运营成本和碳足迹。
  • 障碍和"开放性问题":**
diff 复制代码
-    团队仍在为巨型模型构建,因为基准测试侧重于一般智能,而不是代理任务。该白皮书呼吁制定新的、特定于任务的基准,以衡量业务或工作流程自动化中真正重要的因素。
diff 复制代码
-   存在惯性(投资基础设施,对"降级"的恐惧)会减缓 SLM 的采用,即使客观上它更好。
  • ** 号召**

    • NVIDIA 邀请反馈和贡献,规划为 SLM 优化代理开源工具和框架,并呼吁该领域采用新的最佳实践。
    • 作者强调,这种转变并不是"反 LLMs",而是推动人工智能架构与适合这项工作的工具相匹配。

为什么这是一件大事:

  • 随着 genAI 从炒作到生产,成本、速度和可靠性最为重要,而 SLM 可能是使代理 AI 真正可扩展的被忽视的主力。
  • 该论文可能会激发新的初创公司和专门围绕 SLM 构建的人工智能堆栈,引发行业"规模调整"运动。

** 警告:**

  • SLM (还)不能替代所有 LLM 用例;混合模式是关键。
  • 需要新的指标和社区基准来跟踪 SLM 性能。
相关推荐
DevYK4 小时前
企业级 Agent 开发实战(一) LangGraph 快速入门
后端·llm·agent
一只叫煤球的猫5 小时前
🕰 一个案例带你彻底搞懂延迟双删
java·后端·面试
冒泡的肥皂5 小时前
MVCC初学demo(一
数据库·后端·mysql
颜如玉6 小时前
ElasticSearch关键参数备忘
后端·elasticsearch·搜索引擎
卡拉叽里呱啦7 小时前
缓存-变更事件捕捉、更新策略、本地缓存和热key问题
分布式·后端·缓存
David爱编程7 小时前
线程调度策略详解:时间片轮转 vs 优先级机制,面试常考!
java·后端
码事漫谈8 小时前
C++继承中的虚函数机制:从单继承到多继承的深度解析
后端
阿冲Runner8 小时前
创建一个生产可用的线程池
java·后端
写bug写bug8 小时前
你真的会用枚举吗
java·后端·设计模式