小语言模型是真正的未来

英伟达表示,大多数人工智能代理不需要巨大的模型。小语言模型是真正的未来

NVIDIA 的新论文《小型语言模型是代理人工智能的未来》深入探讨了为什么当今对越来越大的语言模型 (LLM) 的痴迷在现实世界的人工智能代理方面可能会被错误地定位。以下是他们的论点和发现的详细介绍,并为构建者和技术读者进行了细分:

What's the Problem? 怎么了?

LLMs (如 GPT-4、Gemini、Claude)非常适合开放式对话和"无所不能"的人工智能,但为每个自动化代理部署它们有点矫枉过正。现实生活中的大多数代理人工智能都会 处理日常、重复和专业 的任务------想想电子邮件分类、表单提取或结构化网络抓取。使用一个巨大的法学硕士就像租一枚火箭只是为了送披萨。

NVIDIA's Position: 英伟达的立场:

他们认为, 小型语言模型 (SLM) ------参数较少的模型,在 10B 下思考------通常同样能够胜任这些代理工作。论文要点:

  • SLM 足够高效和强大:** SLM 已经达到了这样一个水平,对于许多代理任务(结构化数据、API 调用、代码片段),它们的执行速度与 LLM 几乎相同,但使用的计算、内存和能源要少得多。

    • 实际实验表明,SLM 在速度、延迟和运营成本方面可以与 LLM 相媲美甚至优于 LLM,尤其是在范围狭窄且指令清晰的任务上。
  • 最佳用途:专业的重复性任务**

    • "代理 AI"(将多个步骤、API 或微服务链接在一起的 AI 系统)的兴起意味着更多的工作负载是可预测的和特定于领域的。
    • SLM 擅长简单的规划、解析、查询生成,甚至代码生成,只要这项工作不需要广泛的世界知识。
  • 混合动力系统是未来:**

diff 复制代码
-    不要扔掉LLMs!相反,管道请求:让 SLM 处理大部分代理工作,仅针对模棱两可、复杂或创造性的查询升级为大型 LLM。
diff 复制代码
-   他们概述了一种方法("LLM 到 SLM 代理转换算法"),用于系统地迁移基于 LLM 的代理系统,以便团队可以在不破坏事情的情况下转移流量。
  • 经济和环境影响:**
diff 复制代码
-   SLM 允许在边缘设备、受监管的环境中以更低的成本进行更广泛的部署。
markdown 复制代码
-   他们认为,即使整个人工智能行业从法学硕士部分*转向* SLM,也可以显着降低运营成本和碳足迹。
  • 障碍和"开放性问题":**
diff 复制代码
-    团队仍在为巨型模型构建,因为基准测试侧重于一般智能,而不是代理任务。该白皮书呼吁制定新的、特定于任务的基准,以衡量业务或工作流程自动化中真正重要的因素。
diff 复制代码
-   存在惯性(投资基础设施,对"降级"的恐惧)会减缓 SLM 的采用,即使客观上它更好。
  • ** 号召**

    • NVIDIA 邀请反馈和贡献,规划为 SLM 优化代理开源工具和框架,并呼吁该领域采用新的最佳实践。
    • 作者强调,这种转变并不是"反 LLMs",而是推动人工智能架构与适合这项工作的工具相匹配。

为什么这是一件大事:

  • 随着 genAI 从炒作到生产,成本、速度和可靠性最为重要,而 SLM 可能是使代理 AI 真正可扩展的被忽视的主力。
  • 该论文可能会激发新的初创公司和专门围绕 SLM 构建的人工智能堆栈,引发行业"规模调整"运动。

** 警告:**

  • SLM (还)不能替代所有 LLM 用例;混合模式是关键。
  • 需要新的指标和社区基准来跟踪 SLM 性能。
相关推荐
无限大619 小时前
为什么"数据压缩"能减小文件大小?——从冗余数据到高效编码
后端
用户7294294322319 小时前
kubernetes/k8s全栈技术讲解+企业级实战项目课程
后端
用户7294294322319 小时前
基于Dubbo的分布式系统架构+事务解决方案
后端
程序员鱼皮19 小时前
什么是 RESTful API?凭什么能流行 20 多年?
前端·后端·程序员
+VX:Fegn089519 小时前
计算机毕业设计|基于springboot + vue健身房管理系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
用户7294294322319 小时前
Shiro框架工作原理与实践精讲
后端
用户7294294322319 小时前
uni-app实战在线教育类app开发
后端
用户7294294322319 小时前
数据中心虚拟化之KVM虚拟化基本部署视频课程
后端
幌才_loong19 小时前
深入解析 C# async/await 执行原理:从语法糖到状态机
后端·.net