2024年大型语言模型（LLMs）的发展回顾

2024年对大型语言模型（LLMs）来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。

GPT-4的壁垒被打破

去年，我们还在讨论如何构建超越GPT-4的模型。如今，已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型，共计70个模型。其中，Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出，它们不仅达到了GPT-4的水平，还引入了新功能，如更长的输入上下文和视频输入能力。

LLMs价格大幅下降

得益于竞争和效率提升，运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量，对环境影响的担忧有所减轻。

多模态视觉成为常态，音频和视频开始兴起

2024年，几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频，为用户提供了新的应用方式。

语音和实时摄像头模式让科幻成为现实

语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音，而不需要单独的TTS或STT模型。

提示驱动的应用生成已成为商品

LLMs在2023年已经能够生成代码，而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。

最佳模型的普遍访问仅持续了几个月

今年初，GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而，随着OpenAI推出ChatGPT Pro订阅服务，免费访问最佳模型的时代可能已经结束。

"代理"仍未真正实现

"代理"一词缺乏明确且广泛理解的含义。尽管如此，代理的概念仍然让人感觉"即将到来"，但基于LLMs的代理在实用性上仍存在挑战。

评估（Evals）至关重要

为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型，更好地迭代，并构建比竞争对手更可靠和有用的产品特性。

Apple Intelligence不佳，但Apple的MLX库表现出色

Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而，Apple自己的"Apple Intelligence"功能大多令人失望。

推理扩展"推理"模型的崛起

OpenAI的o1模型是这类模型的代表，它们通过在模型内部花费"推理令牌"来思考问题，然后输出最终结果。这种模型为扩展模型性能提供了新的方式。

最佳可用LLM是否在中国以不到600万美元训练而成？

DeepSeek v3是一个拥有685B参数的大型模型，其训练成本仅为5,576,000美元，这是一个非常积极的迹象，表明训练成本可以且应该继续下降。

环境影响有所改善

模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。

环境影响变得更糟

大型科技公司正在花费数十亿美元建设新数据中心，对电网和环境产生实质性影响。这种基础设施建设是否必要，还是一个未知数。

"slop"成为行业术语

"slop"一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。

合成训练数据效果显著

尽管有关模型崩溃的讨论，但AI实验室越来越多地在训练中使用合成内容，以引导模型朝着正确的方向发展。

LLMs变得更加难以使用

LLMs是复杂的工具，需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多，用户需要了解不同系统的工具和限制。

知识分布极不均匀

大多数人可能听说过ChatGPT，但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。

LLMs需要更好的批评

LLMs确实值得批评，我们需要讨论这些问题，找到缓解方法，并帮助人们学习如何负责任地使用这些工具。

以上是对2024年LLMs发展的总结，这一年在LLMs领域发生了很多变化，从技术进步到环境影响，再到社会接受度，LLMs正以前所未有的速度发展和影响着我们的世界。