2024年大型语言模型(LLMs)的发展回顾

2024年对大型语言模型(LLMs)来说是充满变革的一年。以下是对过去一年中LLMs领域的关键进展和主题的总结。

GPT-4的壁垒被打破

去年,我们还在讨论如何构建超越GPT-4的模型。如今,已有18个组织拥有在Chatbot Arena排行榜上超越原始GPT-4的模型,共计70个模型。其中,Google的Gemini 1.5 Pro和Anthropic的Claude 3系列尤为突出,它们不仅达到了GPT-4的水平,还引入了新功能,如更长的输入上下文和视频输入能力。

LLMs价格大幅下降

得益于竞争和效率提升,运行顶级托管LLMs的成本在过去一年中大幅下降。OpenAI的最贵模型价格从GPT-3时代的100倍降低到现在的1/100。这种价格下降直接关系到运行提示所消耗的能量,对环境影响的担忧有所减轻。

多模态视觉成为常态,音频和视频开始兴起

2024年,几乎所有重要的模型供应商都发布了多模态模型。这些模型能够处理图像、音频和视频,为用户提供了新的应用方式。

语音和实时摄像头模式让科幻成为现实

语音和实时视频模式的发展尤为引人注目。GPT-4o和Google的Gemini等模型现在可以接受音频输入并输出非常逼真的语音,而不需要单独的TTS或STT模型。

提示驱动的应用生成已成为商品

LLMs在2023年已经能够生成代码,而2024年它们能够生成完整的交互式应用程序。Anthropic的Claude Artifacts和GitHub的GitHub Spark等功能允许用户直接在界面中使用生成的应用程序。

最佳模型的普遍访问仅持续了几个月

今年初,GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等最佳模型对大多数人免费开放。然而,随着OpenAI推出ChatGPT Pro订阅服务,免费访问最佳模型的时代可能已经结束。

"代理"仍未真正实现

"代理"一词缺乏明确且广泛理解的含义。尽管如此,代理的概念仍然让人感觉"即将到来",但基于LLMs的代理在实用性上仍存在挑战。

评估(Evals)至关重要

为LLM驱动的系统编写良好的自动化评估是构建有用应用程序的关键技能。拥有强大的评估套件可以帮助你更快地采用新模型,更好地迭代,并构建比竞争对手更可靠和有用的产品特性。

Apple Intelligence不佳,但Apple的MLX库表现出色

Apple的MLX库为在Mac上运行各种MLX兼容模型提供了极好性能。然而,Apple自己的"Apple Intelligence"功能大多令人失望。

推理扩展"推理"模型的崛起

OpenAI的o1模型是这类模型的代表,它们通过在模型内部花费"推理令牌"来思考问题,然后输出最终结果。这种模型为扩展模型性能提供了新的方式。

最佳可用LLM是否在中国以不到600万美元训练而成?

DeepSeek v3是一个拥有685B参数的大型模型,其训练成本仅为5,576,000美元,这是一个非常积极的迹象,表明训练成本可以且应该继续下降。

环境影响有所改善

模型效率的提高导致运行提示的能量使用和环境影响大幅下降。OpenAI的提示费用比GPT-3时代降低了100倍。

环境影响变得更糟

大型科技公司正在花费数十亿美元建设新数据中心,对电网和环境产生实质性影响。这种基础设施建设是否必要,还是一个未知数。

"slop"成为行业术语

"slop"一词被用来描述未经请求且未经审查的AI生成内容。这个概念已经成为讨论现代AI的简洁方式。

合成训练数据效果显著

尽管有关模型崩溃的讨论,但AI实验室越来越多地在训练中使用合成内容,以引导模型朝着正确的方向发展。

LLMs变得更加难以使用

LLMs是复杂的工具,需要深入了解和经验才能充分利用并避免陷阱。随着系统的增多,用户需要了解不同系统的工具和限制。

知识分布极不均匀

大多数人可能听说过ChatGPT,但对其他模型如Claude的了解甚少。这种知识差距对社会发展不利。

LLMs需要更好的批评

LLMs确实值得批评,我们需要讨论这些问题,找到缓解方法,并帮助人们学习如何负责任地使用这些工具。

以上是对2024年LLMs发展的总结,这一年在LLMs领域发生了很多变化,从技术进步到环境影响,再到社会接受度,LLMs正以前所未有的速度发展和影响着我们的世界。

相关推荐
嵌入式小企鹅1 小时前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
草莓熊Lotso1 小时前
Vibe Coding 时代:LangChain 与 LangGraph 全链路解析
linux·运维·服务器·数据库·人工智能·mysql·langchain
快乐非自愿2 小时前
RAG夺命10连问,你能抗住第几问?
人工智能·面试·程序员
千匠网络4 小时前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO6 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker6 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.7 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑7 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金7 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移7 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言