2024年大型语言模型(LLMs)的发展回顾

2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。

GPT-4的壁垒被打破

去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型,共计70个模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出,它们不仅达到了GPT-4的水平,还引入了新功能,如更长的输入上下文和视频输入能力。

LLMs价格大幅下降

得益于竞争和效率提升,运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量,对环境影响的担忧有所减轻。

多模态视觉成为常态,音频和视频开始兴起

2024年,几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频,为用户提供了新的应用方式。

语音和实时摄像头模式让科幻成为现实

语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音,而不需要单独的TTS或STT模型。

提示驱动的应用生成已成为商品

LLMs在2023年已经能够生成代码,而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。

最佳模型的普遍访问仅持续了几个月

今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而,随着OpenAI推出ChatGPT Pro订阅服务,免费访问最佳模型的时代可能已经结束。

"代理"仍未真正实现

"代理"一词缺乏明确且广泛理解的含义。尽管如此,代理的概念仍然让人感觉"即将到来",但基于LLMs的代理在实用性上仍存在挑战。

评估(Evals)至关重要

为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型,更好地迭代,并构建比竞争对手更可靠和有用的产品特性。

Apple Intelligence不佳,但Apple的MLX库表现出色

Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而,Apple自己的"Apple Intelligence"功能大多令人失望。

推理扩展"推理"模型的崛起

OpenAI的o1模型是这类模型的代表,它们通过在模型内部花费"推理令牌"来思考问题,然后输出最终结果。这种模型为扩展模型性能提供了新的方式。

最佳可用LLM是否在中国以不到600万美元训练而成?

DeepSeek v3是一个拥有685B参数的大型模型,其训练成本仅为5,576,000美元,这是一个非常积极的迹象,表明训练成本可以且应该继续下降。

环境影响有所改善

模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。

环境影响变得更糟

大型科技公司正在花费数十亿美元建设新数据中心,对电网和环境产生实质性影响。这种基础设施建设是否必要,还是一个未知数。

"slop"成为行业术语

"slop"一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。

合成训练数据效果显著

尽管有关模型崩溃的讨论,但AI实验室越来越多地在训练中使用合成内容,以引导模型朝着正确的方向发展。

LLMs变得更加难以使用

LLMs是复杂的工具,需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多,用户需要了解不同系统的工具和限制。

知识分布极不均匀

大多数人可能听说过ChatGPT,但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。

LLMs需要更好的批评

LLMs确实值得批评,我们需要讨论这些问题,找到缓解方法,并帮助人们学习如何负责任地使用这些工具。

以上是对2024年LLMs发展的总结,这一年在LLMs领域发生了很多变化,从技术进步到环境影响,再到社会接受度,LLMs正以前所未有的速度发展和影响着我们的世界。

相关推荐
lijianhua_97124 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
蔡俊锋4 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语4 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背5 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao5 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农5 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年5 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
ai生成式引擎优化技术5 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能
帐篷Li5 小时前
9Router:开源AI路由网关的架构设计与技术实现深度解析
人工智能
新缸中之脑6 小时前
在GCP上运行autoresearch
人工智能