小语言模型是真正的未来

英伟达表示,大多数人工智能代理不需要巨大的模型。小语言模型是真正的未来

NVIDIA 的新论文《小型语言模型是代理人工智能的未来》深入探讨了为什么当今对越来越大的语言模型 (LLM) 的痴迷在现实世界的人工智能代理方面可能会被错误地定位。以下是他们的论点和发现的详细介绍,并为构建者和技术读者进行了细分:

What's the Problem? 怎么了?

LLMs (如 GPT-4、Gemini、Claude)非常适合开放式对话和"无所不能"的人工智能,但为每个自动化代理部署它们有点矫枉过正。现实生活中的大多数代理人工智能都会 处理日常、重复和专业 的任务------想想电子邮件分类、表单提取或结构化网络抓取。使用一个巨大的法学硕士就像租一枚火箭只是为了送披萨。

NVIDIA's Position: 英伟达的立场:

他们认为, 小型语言模型 (SLM) ------参数较少的模型,在 10B 下思考------通常同样能够胜任这些代理工作。论文要点:

  • SLM 足够高效和强大:** SLM 已经达到了这样一个水平,对于许多代理任务(结构化数据、API 调用、代码片段),它们的执行速度与 LLM 几乎相同,但使用的计算、内存和能源要少得多。

    • 实际实验表明,SLM 在速度、延迟和运营成本方面可以与 LLM 相媲美甚至优于 LLM,尤其是在范围狭窄且指令清晰的任务上。
  • 最佳用途:专业的重复性任务**

    • "代理 AI"(将多个步骤、API 或微服务链接在一起的 AI 系统)的兴起意味着更多的工作负载是可预测的和特定于领域的。
    • SLM 擅长简单的规划、解析、查询生成,甚至代码生成,只要这项工作不需要广泛的世界知识。
  • 混合动力系统是未来:**

diff 复制代码
-    不要扔掉LLMs!相反,管道请求:让 SLM 处理大部分代理工作,仅针对模棱两可、复杂或创造性的查询升级为大型 LLM。
diff 复制代码
-   他们概述了一种方法("LLM 到 SLM 代理转换算法"),用于系统地迁移基于 LLM 的代理系统,以便团队可以在不破坏事情的情况下转移流量。
  • 经济和环境影响:**
diff 复制代码
-   SLM 允许在边缘设备、受监管的环境中以更低的成本进行更广泛的部署。
markdown 复制代码
-   他们认为,即使整个人工智能行业从法学硕士部分*转向* SLM,也可以显着降低运营成本和碳足迹。
  • 障碍和"开放性问题":**
diff 复制代码
-    团队仍在为巨型模型构建,因为基准测试侧重于一般智能,而不是代理任务。该白皮书呼吁制定新的、特定于任务的基准,以衡量业务或工作流程自动化中真正重要的因素。
diff 复制代码
-   存在惯性(投资基础设施,对"降级"的恐惧)会减缓 SLM 的采用,即使客观上它更好。
  • ** 号召**

    • NVIDIA 邀请反馈和贡献,规划为 SLM 优化代理开源工具和框架,并呼吁该领域采用新的最佳实践。
    • 作者强调,这种转变并不是"反 LLMs",而是推动人工智能架构与适合这项工作的工具相匹配。

为什么这是一件大事:

  • 随着 genAI 从炒作到生产,成本、速度和可靠性最为重要,而 SLM 可能是使代理 AI 真正可扩展的被忽视的主力。
  • 该论文可能会激发新的初创公司和专门围绕 SLM 构建的人工智能堆栈,引发行业"规模调整"运动。

** 警告:**

  • SLM (还)不能替代所有 LLM 用例;混合模式是关键。
  • 需要新的指标和社区基准来跟踪 SLM 性能。
相关推荐
神奇小汤圆1 小时前
MySQL的10种高级SQL,性能飞升
后端
AI探索者1 小时前
LangGraph 人工干预:Human-in-the-loop 机制详解
后端
神奇小汤圆1 小时前
Java并发核心:你以为AQS很复杂?无非是"两个队列"和"一个状态"
后端
shark_chili1 小时前
Spring AI Alibaba 入门与实战:一文构建智能天气查询助手
后端
Java编程爱好者1 小时前
Java 高频面试题总结(2026通用版)
后端
Java水解1 小时前
Spring Boot 视图层与模板引擎
spring boot·后端
重庆穿山甲1 小时前
Java开发者的大模型入门:Spring AI Alibaba组件全攻略(二)
前端·后端
Java水解2 小时前
一文搞懂 Spring Boot 默认数据库连接池 HikariCP
spring boot·后端
重庆穿山甲2 小时前
Java开发者的大模型入门:Spring AI Alibaba组件全攻略(一)
前端·后端
Java编程爱好者2 小时前
小米二面:std::map和std::unordered_map谁更快?别只知道哈希表
后端