2025: The year in LLMs

2025年是LLM从"惊艳演示"走向"真正实用工具"的一年，尤其是编码代理、推理能力和图像编辑三大突破深刻改变了开发者和普通用户的使用方式。中国开源模型和Google Gemini的强势崛起，打破了美国实验室的垄断格局，同时也带来了更高的安全、能源和内容质量挑战。

Simon Willison于2025年12月31日发布的《2025: The year in LLMs》是其年度系列的第三篇，对过去一年大型语言模型（LLM）领域的重大趋势和发展进行了全面回顾。

Simon个人亮点

用"鹈鹕骑自行车"作为趣味基准测试模型能力，已成迷因。

一年内用AI辅助构建了110个小工具（tools.simonwillison.net）。

越来越多在手机上编程，甚至完成复杂端口项目。

强调"一致性测试套件"（conformance suites）对新协议/语言被LLM理解的重要性。

"推理"（Reasoning）之年

OpenAI在2024年底推出的o1系列开启了"推理"革命（通过RLVR等技术），2025年多家实验室跟进，推出带推理模式的模型。推理能力极大提升了模型在工具使用、复杂搜索、代码调试等方面的表现，成为驱动代理（agents）的关键。

代理（Agents）之年，尤其是编码代理

代理从概念走向实用，主要在编码和深度研究两类场景爆发。2025年2月Anthropic悄然发布的Claude Code被视为最重要事件------它开启了"编码代理"时代（模型可写代码、执行、迭代）。随后各大厂商推出CLI工具（如Codex CLI、Gemini CLI、Qwen Code）和异步编码代理（如Claude Code web、Codex web、Jules）。开发者开始大规模使用这些工具，甚至在手机上编程。

命令行LLM之年

Claude Code等工具证明开发者非常愿意在终端使用强大LLM，推动了命令行工具的流行。Anthropic称Claude Code贡献了10亿美元年化收入。

中国开源权重模型崛起之年

中国实验室（DeepSeek、Qwen、GLM、Kimi、MiniMax等）主导了2025年开源模型排行榜前几位，许多模型性能媲美甚至超过西方闭源前沿模型，且多采用Apache 2.0或MIT等真正开源许可。DeepSeek R1发布曾引发NVIDIA股价暴跌近6000亿美元（后反弹）。

长任务与更强代理能力

METR数据显示，2025年前沿模型已能独立完成人类需要数小时的软件工程任务，任务时长能力呈指数增长。

基于提示的图像编辑之年

OpenAI在2025年3月推出的图像编辑功能（可上传图片并用提示修改）引发爆炸式增长，一周新增1亿用户。Google的"Nano Banana"系列（尤其是Nano Banana Pro）后来居上，成为最强图像生成/编辑模型，支持生成带准确文字和信息图的图像。

模型在学术竞赛夺金之年

OpenAI和Google的推理模型在国际数学奥林匹克（IMO）和国际大学生程序设计竞赛（ICPC）中获得金牌级别成绩，且问题均为全新未公开题目。

Llama迷失方向 & OpenAI失去领先优势之年

Meta的Llama 4规模过大、未能提供易运行的小模型，影响力下降；OpenAI虽仍有顶级模型，但在图像、代码、开源等领域被Google Gemini、Anthropic Claude和中国模型追赶或超越。

Gemini之年

Google凭借Gemini系列（2.0→3.0）、自研TPU硬件优势、Nano Banana图像模型、Veo 3视频、Gemma开源模型等多项产品，取得全面进步，成为2025年最大赢家之一。

其他值得关注的趋势

高价订阅（$200/月）成为新常态。

"YOLO模式"（无确认自动执行）流行，但引发安全担忧（Normalization of Deviance）。

本地模型变好（20-32B参数模型接近GPT-4级），但云端前沿模型进步更快，编码代理仍依赖云。

"Slop"（AI低质量内容）成为年度词汇。

数据中心因能耗、噪音等原因面临越来越强的公众反对。

浏览器深度集成AI（如ChatGPT Atlas）带来便利同时也带来严重安全隐患。

"Vibe coding"（完全依赖AI、几乎不看代码的快速原型开发方式）流行，但被广泛误用。

MCP（Model Context Protocol）短暂火热，后被更简单的Skills机制和编码代理取代。