
一、引言:从"更大"走向"更强",从"能说"走向"能做"
过去几年,大语言模型的发展速度之快,常常让人产生一种错觉:似乎只要参数继续膨胀、训练继续扩展,模型能力就会沿着一条几乎笔直的曲线不断上升。然而走到 2025 年,这种理解已经明显不够了。行业真正关心的问题,开始从"模型究竟有多大"转向"模型到底能否稳定完成复杂任务";从"能否生成像样的文字"转向"能否在长时程、多步骤、跨工具、跨模态的真实环境中可靠工作"。OpenAI 在 2025 年推出 GPT-4.5、GPT-4.1 与 GPT-5,并在 2026 年 3 月发布 GPT-5.4;Google 在 2025 年推出 Gemini 2.5 Pro;Anthropic 在 2025 年发布 Claude 4 系列;Meta 在 2025 年发布 Llama 4 Scout 与 Maverick;DeepSeek 在 2025 年 1 月发布 DeepSeek-R1。仅从这些公开节点就能看出,行业竞争已经不再只是"谁的模型更大",而是"谁的模型在推理、工具使用、长上下文、多模态与部署效率上更具实用价值"。
而所谓"更可用",其内涵也正在迅速发生变化。今天衡量一个大模型的先进性,已经不能只看它是否"更会说",还要看它是否"更会做":是否能够在更长时程的任务中保持稳定,是否能够借助工具完成真实工作,是否能够在浏览器、文件系统、代码环境与多模态界面中持续执行任务。也正是在这一方向上,OpenAI 于 2025 年推出 Operator 与 ChatGPT agent,并在后续版本中持续强化 computer use 与长时程任务(long-horizon tasks)能力;Anthropic 则在 Claude 的工具体系中提供了 computer use 相关能力;与此同时,2026 年初 OpenClaw 的迅速走红,也进一步凸显了一个正在加速成形的事实:AI 不再只是回答问题的语言系统,而正逐步进入现实工作流,成为能够参与执行与协作的任务型系统。
从研究视角看,2025 年的大模型领域至少出现了四条并行发展、相互交织的主线。第一条主线是"推理能力"的再定义:模型不只是回答问题,而是要在复杂约束下展开多步求解,甚至在必要时进行更长时间的内部思考。第二条主线是"模型---工具---环境"的连接日趋紧密,模型开始真正进入计算机、浏览器、代码环境和企业数据系统,逐步具备执行任务而非仅仅描述任务的能力。第三条主线是"效率革命":长上下文、KV 缓存、分页注意力、量化与推理架构优化等技术,使部署效率与推理成本重新成为研究关注的核心议题。第四条主线则是"可信性"的回归,无论是 RAG、引用、工具调用还是安全对齐,研究者越来越清楚地意识到:一个看起来聪明的模型,并不自动等于一个可以放心交给现实世界的模型。
因此,今天再写大语言模型综述,已经不适合沿用早期"参数、数据、算力三要素"的单线叙事。2025 年之后的研究表明,大模型不再被单独看作一个"文本生成器",而是越来越被看作一个由推理、检索、工具调用、上下文管理、运行时调度与外部环境交互共同组成的智能系统。与此同时,无论是前沿模型的官方发布,还是学术界围绕规划、推理、多模态、RAG 与 Agent 的研究,都在共同指向这一变化:真正决定模型价值的,不再只是它能否输出一段流畅文字,而是它能否在复杂约束之下完成一项连续、可验证、可追溯的任务。
二、研究背景:大语言模型的演进为何在 2025 年发生拐点
若将大语言模型的发展粗略分段,那么 2020---2022 年更像"能力显现期",研究界第一次看到大规模预训练在语言理解、生成和少样本学习中的惊人泛化;2023---2024 年则是"应用外溢期",模型开始走出论文与 demo,进入助手、搜索、办公、编程、图像理解与企业流程;而到了 2025 年,整个领域开始进入"能力整合期"。这一阶段的显著特征,不是单点能力继续线性增长,而是模型把推理、长上下文、代码、视觉、工具与真实工作流逐渐整合成更接近"系统能力"的形态。OpenAI 在介绍 GPT-5 时明确将其描述为一个"统一系统",由高效模型、深度推理模型和实时路由机制共同组成;Anthropic 在 Claude 4 中则强调"hybrid models",即近实时响应与 extended thinking 的结合;Google 对 Gemini 2.5 Pro 的官方介绍则突出其"thinking model"定位。这些表述虽然来自不同公司,但都指向同一个事实:前沿模型不再是单一模式,而是开始在"快"和"深"、"通用"和"专长"、"生成"和"执行"之间进行架构级折中与调度。
这种拐点并非仅由产品策略推动,它背后有明显的技术原因。首先,单纯增加规模的边际收益已不如早期那样显著。OpenAI 在 GPT-4.5 的说明中,把它定位为"我们最强的 GPT 聊天模型",但同时强调它并不是"frontier model",并将其描述为在无监督学习扩展上的进步,而非 reasoning 模型的终点;相反,随后发布的 GPT-5 转向"统一智能"与推理路由,说明行业已不再把"更大的纯聊天模型"视作唯一方向。其次,真实场景对模型提出的要求越来越具体:程序员希望它理解完整代码库,企业希望它读取知识库和连接器,研究者希望它可以长链条执行实验或整理证据,普通用户则希望它不仅会回答,还会代办。于是,模型的评估标准自然从"通用 benchmark 上分数更高"转向"在长时程任务中更稳定、在工具环境中更可靠、在高成本任务中更划算"。
再看学术研究,也能看到同样的转向。2025 年关于规划、推理、扩散语言模型、多模态 step-wise 奖励、可信 RAG 等工作的出现,并不是偶然的热点堆积,而是对一个共同问题的不同回答:当大模型已经"足够会说"之后,下一阶段究竟该如何让它们"更会想、更会看、更会查、更会做、也更值得信任"。比如,《The 2025 Planning Performance of Frontier Large Language Models》直接把前沿模型带入 PDDL 规划任务,以 end-to-end 方式检验其规划能力;《Large Language Diffusion Models》挑战了"语言模型只能依赖自回归"的主流假设;《R1-VL》则试图解决多模态推理中稀疏奖励的问题;《TrustRAG》把 RAG 的关注点从"能检索"进一步推到"能否抵御被污染的检索语料"。这些工作说明,2025 年的研究前沿已经从"再造一个大模型"转向"将大模型改造为系统"。
三、推理能力研究:从"回答正确"到"求解过程可用"
3.1 推理模型的重心变化
2025 年以前,关于大语言模型推理能力的讨论,常常集中在"它能不能做数学题""它会不会写代码""它是否比上一代更会逻辑推断"。到 2025 年,这种讨论明显细化了。研究者越来越重视模型在复杂任务中的求解路径:它能否进行多步分解,能否在必要时延长思考,能否在中间步骤保持一致,能否在需要调用工具、搜索资料、执行代码时保持问题表征不走样。OpenAI 对 GPT-5 的发布说明,将"smart, efficient model""deeper reasoning model""real-time router"并列陈述,本身就意味着前沿模型开始把推理当作一种可调度的资源,而非一项固定开启的能力。Anthropic 的 Claude 4 同样区分 near-instant responses 与 extended thinking。换言之,2025 年的推理研究已不再是"是否推理",而是"何时推理、推理多久、推理与执行如何结合"。
这种转变有一个非常重要的现实原因:越接近真实工作流,越不可能只靠一次性自然语言输出解决问题。编程任务需要阅读多文件代码、运行测试、定位报错;知识工作需要查找材料、比较来源、形成有依据的总结;代理任务需要在界面里点击、输入、等待反馈、再修正决策。因此,真正决定模型实用性的,不再只是"最终答案是否像样",而是"中间求解过程是否足够稳健"。这也解释了为什么 2025 年以后,模型发布说明里会频繁出现 planning、verification、computer use、长时程任务等表述。GPT-5.4 的官方介绍直接说它支持 agents "plan, execute, and verify tasks across long horizons",这已经非常接近传统意义上的"智能体任务求解"语言。
3.2 RL 与可验证奖励:推理训练范式的关键变量
DeepSeek-R1 是 2025 年推理模型讨论中无法绕开的一个节点。DeepSeek 官方在发布时强调它"performance on par with OpenAI-o1",同时公开了技术报告和开源蒸馏模型;对应 arXiv 技术报告题目即为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。从命名就可以看出,这一代工作的核心并不只是"把模型做大",而是突出 reinforcement learning 在 reasoning ability 中的作用。它至少代表了一种趋势:行业开始把"如何通过后训练机制激励模型形成更强推理行为"作为核心问题,而不仅仅依赖预训练规模继续自然涌现。
但 2025 年更重要的地方,恰恰不在于"RL 很有效"这样简单的结论,而在于研究界已经开始对 RL 在推理中的真实作用进行拆解。NeurIPS 2025 的获奖论文之一《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》提出的核心问题就非常尖锐:强化学习到底是在真正提升模型的 reasoning capacity,还是更多地提升了模型从已有能力空间中采样出正确推理路径的效率?这篇论文能够获得 NeurIPS 2025 Best Paper Runner-up,本身就说明这一问题是当年社区高度关注的理论焦点。它意味着 2025 年的推理研究开始从"经验上看到有效"进入"机制上追问为何有效、有效到什么程度"的阶段。
这类讨论之所以重要,是因为它改变了我们对"推理增强"的理解。如果 RL 主要改善的是采样效率,那么模型的基础能力边界仍然高度依赖底座模型;如果 RL 能够显著拓展基础模型的推理边界,那么后训练在大模型演化中的地位会被进一步抬升。无论最终答案偏向哪一边,2025 年都已经明确地把"推理能力"从单纯的 benchmark 数值中剥离出来,转化为可研究、可度量、可质疑的训练机制问题。这是大语言模型走向科学化研究的一个重要信号。
3.3 规划能力:语言模型与符号求解的关系重新被审视
规划能力是检验推理是否真正"落地"的天然试金石。因为规划不同于开放式对话,它要求模型在明确的动作空间、状态约束与目标条件下完成序列决策。2025 年的论文《The 2025 Planning Performance of Frontier Large Language Models》把 GPT-5、DeepSeek R1、Gemini 2.5 Pro 与经典规划器 LAMA 放在一起评估,考察它们在标准 PDDL 域与经过混淆处理后的任务上的表现。论文摘要指出,在标准 PDDL 域上,GPT-5 的 solved tasks 表现已经可以与 LAMA 竞争;而在为测试"纯推理"而进行 obfuscation 后,所有模型的表现都会下降,尽管下降幅度比更早期模型小。这个结论非常值得重视:它既说明前沿模型确实比早期模型更接近"可规划",也说明语言模型当前的规划能力仍然在一定程度上依赖任务表述与语义线索。
这类结果提醒我们,不能简单把"会规划"理解成一个笼统标签。大模型在带有自然语言语义提示的环境里,往往能表现出比纯符号环境更强的任务完成能力;但当语义线索被拿走,只留下抽象结构时,它们是否还具备同等水平的求解能力,仍是一个开放问题。因此,2025 年关于规划的研究价值,不仅在于证明模型"更强了",更在于帮助我们识别模型强项来自何处:是来自内在抽象推理能力,还是来自对语义模式的高效利用。这个区分,将直接影响未来 agent 系统的设计:若模型主要擅长利用语义线索,那么环境建模和工具接口就应该尽量提供结构化、可读的状态描述;若模型在纯结构规划上也持续增强,那么它进入自动化控制、流程优化乃至更复杂决策系统的可能性就会更大。
四、模型结构与生成范式:自回归之外,新的路线开始出现
4.1 自回归仍是主流,但不再是唯一想象
长期以来,自回归模型几乎就是"大语言模型"的同义词。从 GPT 系列到多数开源 LLM,主流路线都依赖"从左到右逐 token 预测"这一范式。它的优点非常明显:训练目标清晰,推理链条简洁,与大规模文本语料天然匹配。但它也有众所周知的局限,比如解码串行化导致的延迟问题,以及生成过程中纠错机制较弱等。因此,2025 年扩散语言模型再次被认真讨论,并非因为自回归路线已经失败,而是因为研究界开始寻找"下一代语言生成架构"的备选方案。
《Large Language Diffusion Models》提出的 LLaDA 是这一方向最具代表性的工作之一。论文摘要明确表示,它挑战了"LLM 能力依赖 autoregressive models"的普遍看法,并介绍了一种从头训练、采用 forward data masking 与 reverse generation process 的 diffusion model。NeurIPS 2025 官方页面也显示该工作被正式收录。仅从这些公开事实出发,可以谨慎地说:LLaDA 不是一个边缘小尝试,而是 2025 年对语言生成范式进行正面挑战的重要节点。
4.2 扩散语言模型的意义与限度
扩散语言模型之所以引人关注,主要原因有二。第一,它为语言生成提供了不同于自回归的建模方式,理论上更容易与并行采样、双向信息利用等特性结合。第二,它让"语言建模是否必须被左到右预测束缚"这个问题重新变得开放。对于一个成熟领域来说,主流路线受到替代方案挑战,本身就是研究健康的标志。LLaDA 在公开介绍中强调其 8B 规模、从头训练,并声称性能可与 LLaMA3 8B 相竞争,这至少说明扩散语言模型不再只是概念验证,而是已经开始以具有一定规模和明确比较对象的形式进入讨论。
但若从客观角度看,2025 年还远不足以宣布扩散语言模型已经取代自回归。原因同样清晰:一方面,前沿商业系统与生产级语言模型,主体仍然沿用自回归或其衍生体系;另一方面,扩散语言模型在实际推理成本、采样步数、系统工程复杂度以及真实部署收益上,仍有不少问题有待更充分验证。也就是说,LLaDA 的价值首先在于"打开可能性",其次才是"证明替代性"。对于综述写作而言,更稳妥的判断不是"扩散语言模型已经崛起为主流",而是"它已从理论边缘进入前沿议程,成为自回归之外最值得持续观察的语言建模路线之一"。
4.3 统一模型与混合系统:结构创新不止发生在生成端
与扩散路线并行的另一条重要趋势,是"统一模型"与"混合系统"的发展。OpenAI 在 GPT-5 的介绍中强调 unified system 与 router;Anthropic 的 Claude 4 强调 hybrid reasoning;Meta 的 Llama 4 则以 mixture-of-experts 的形式推出 Scout 与 Maverick,并把"natively multimodal"作为重要卖点。这些方向虽然技术细节各异,但共同表明:前沿模型设计不再满足于单一、静态、同质的推理流程,而越来越偏向模块化、分层化、路由化与混合化。
这种变化的深层原因是,真实任务本身就高度异质。用户并不总是需要最深的推理,也不总是在做最简单的闲聊;有的任务更依赖上下文记忆,有的更依赖工具调用,有的更依赖多模态感知,还有的更依赖低延迟响应。于是,模型系统需要学会"按需思考、按需调度、按需使用资源"。从这个意义上说,2025 年的模型结构创新,不只是为了追求 benchmark 新高,更是在为大模型从"单一模型"过渡到"智能系统"搭桥。
五、多模态大模型:从"看懂图片"走向"视觉推理与统一生成"
5.1 多模态演进的脉络:从对齐到指令化,再到统一化
要理解 2025 年的多模态进展,有必要先回顾此前的几个关键阶段。CLIP 在 2021 年通过自然语言监督学习可迁移视觉表征,奠定了图文对齐的一条核心路线;LLaVA 在 2023 年通过 visual instruction tuning,把视觉理解与语言指令跟随能力更紧密地连接起来;Meta 的 Chameleon 在 2024 年进一步提出 early-fusion mixed-modal foundation models,强调文本与图像在任意序列中的统一理解与生成。这条脉络非常清楚:多模态模型先是学会"对应",然后学会"听懂带图的指令",再逐步走向"在一个统一系统中理解并生成多种模态"。
到了 2025 年,多模态研究的重点开始进一步上移。行业不再满足于"给模型一张图,它能描述得像样",而是希望它能在视觉环境中进行多步推理、跨模态问答、长视频或多页文档理解,乃至直接支持计算机使用。Meta 在发布 Llama 4 时,把它定义为"the first open-weight natively multimodal models";Google 在 Gemini 2.5 系列更新中强调 native audio output、advanced security safeguards 与 Project Mariner 的 computer use capabilities;OpenAI 的 GPT-5.4 则把 native computer-use capabilities 放入官方发布重点。这些信息表明,多模态的前沿问题已经从"单幅图像理解"扩展为"在复杂感知环境中完成任务"。
5.2 StepGRPO 与多模态推理:稀疏奖励问题被正面处理
在这一背景下,R1-VL 及其提出的 StepGRPO 值得特别关注。根据 arXiv 摘要与 ICCV 2025 页面,R1-VL 的核心问题是:多模态大语言模型在进行 step-by-step reasoning 时,往往面临 sparse reward 的困难。为此,作者提出 Step-wise Group Relative Policy Optimization,引入 Step-wise Reasoning Accuracy Reward 与 Step-wise Reasoning Validity Reward 等机制,使模型能够在无额外 process reward model 的前提下,通过更密集的 step-wise rewarding 进行自我提升。
这一工作的重要性不只在于某个具体分数,而在于它代表了一类思路:多模态模型的瓶颈,不再只是"感知够不够强",而是"感知与推理之间如何形成稳定耦合"。如果说早期多模态模型更像"会看图的语言模型",那么 StepGRPO 所面向的问题已经是"会看、会分步思考,并在中间推理步骤中保持稳定性"的系统问题。对于自动驾驶辅助、复杂界面操作、图表分析、视频理解和科学图像推断等场景,这类方法论比单点识别精度提升更具长远意义。因为真正的复杂任务,大多不是"看到了什么"就结束,而是"看到之后如何持续推理并决策"。
5.3 统一多模态系统的现实意义
多模态统一化之所以在 2025 年格外重要,还有一个现实原因:人类的大部分真实工作本来就不是纯文本的。软件界面是视觉的,表格和图表是视觉的,合同和报告虽然以文本为主,但常常伴随格式、结构和图像信息;浏览器任务更是天然多模态。于是,真正能支撑 agent 和知识工作的模型,必须把"语言能力"扩展为"对图形、布局、按钮、文档页面与界面状态的综合理解"。Anthropic 的 computer use 工具、OpenAI 的 CUA 与 GPT-5.4 computer-use 能力,都说明多模态不再是附属能力,而是任务执行能力的基础组成。
因此,可以把 2025 年多模态研究概括为一句话:它正在从"对齐问题"转化为"环境求解问题"。前一个阶段追求的是让图像和文字能对应起来,后一个阶段追求的是让模型在包含视觉信息的环境里,持续形成可执行判断。前者更像感知,后者已经接近行动。这种转变,很可能会决定未来几年多模态大模型与 agent 技术融合的深度。
六、长上下文与高效推理:模型能力扩展的工程底座
6.1 长上下文为何成为关键议题
2025 年前后的大模型研究,有一个非常显著但常被低估的事实:越来越多模型开始把"长上下文"写进核心卖点。GPT-4.1 在 API 中提供 1 million token context window;Meta 发布 Llama 4 Scout 时强调 unprecedented context length support,相关报道提到其 10 million token context window;GPT-5.4 的官方介绍也给出 up to 1M tokens of context,并强调它适合长时程任务。这些信息本身就表明,长上下文已经不再是小众功能,而成为前沿模型系统设计的重要维度。
长上下文之所以重要,并不只是因为"窗口越长越酷"。它真正改变的是模型的工作方式:一方面,模型可以处理更大的代码库、更长的法律文本、更复杂的技术文档和更多轮对话历史;另一方面,长上下文为 agent 带来了"任务持续性",使模型不必频繁在外部摘要与重新加载之间切换,从而更有可能保持问题状态的一致。对于研究者而言,这意味着模型开始从"短时响应系统"转向"长时程工作引擎"。
6.2 KV 缓存与 PagedAttention:为什么工程创新会改变研究前沿
长上下文能力若要真正落地,绕不开推理效率与内存问题。vLLM 与 PagedAttention 在这一点上的意义,几乎已经成为共识。vLLM 的论文《Efficient Memory Management for Large Language Model Serving with PagedAttention》提出一种受操作系统虚拟内存与分页机制启发的 attention 算法,使 KV cache 可以存放在非连续的 paged memory 中。论文摘要强调其结果包括 near-zero waste in KV cache memory,以及在多种场景下显著优于既有系统;vLLM 官方博客则更直白地宣传"up to 24x higher throughput than HuggingFace Transformers"。无论采用论文的谨慎措辞还是博客的工程口径,都可以确定一点:高效服务系统已不再只是"工程实现细节",而是决定模型可用性的前沿问题。
这背后折射出大模型研究的一个深刻变化。早期研究往往把"模型"与"系统"区分开来,似乎前者负责提出算法,后者只负责把算法跑快一点。但长上下文、批量服务、agent 运行时、工具调用这些场景告诉我们:系统工程本身就在重塑可研究的模型边界。如果没有足够高效的 KV cache 管理机制,1M token context 很可能只能停留在理论指标层面;如果没有对请求共享、分页调度和内存碎片的有效控制,再强的模型也无法成为生产环境里的稳定服务。换言之,2025 年之后,大语言模型的前沿能力越来越呈现为"模型---系统共设计"的结果。
6.3 长上下文的价值不应被神化
当然,长上下文能力的提升,并不自动意味着模型就会"真正记住并理解一切"。窗口大小提供的是潜在信息容量,而不是自动保证的有效利用能力。前沿公司之所以在发布说明中同时强调 reasoning、routing、tool use 与 verification,恰恰说明单靠堆大上下文并不能解决所有问题。模型仍然需要学会在大量信息中定位关键片段、维持问题主线、避免注意力稀释,并在必要时通过检索、摘要与外部工具辅助来组织上下文。也正因此,2025 年的长上下文研究应该被理解为"打开新空间",而不是"解决所有长任务问题"。真正重要的,不是模型窗口数字本身,而是它与检索、工具、规划和运行时架构如何协同。
七、检索增强生成:从"补知识"到"建可信链条"
7.1 RAG 的角色变化
检索增强生成并不是 2025 年才出现的概念,但到了这一阶段,它的研究定位已经发生了明显变化。早期 RAG 往往被理解为一个很朴素的工程补丁:模型知识有截止日期、会胡编乱造,所以给它加一个检索器,让它先查资料再回答。然而随着大模型进入医疗、法律、企业知识管理、科研辅助等场景,人们逐渐发现,RAG 的问题远比"有没有查到资料"复杂。检索来的文档是否可靠?不同来源之间冲突如何处理?模型在引用时是否真正对应原文?如果外部语料被污染,RAG 系统是否会被诱导生成错误结论?这些问题使 RAG 从"增强模块"变成了"可信性基础设施"。
TrustRAG 正是在这样的背景下出现。以《TrustRAG: Enhancing Robustness and Trustworthiness in RAG》为代表的工作,把问题直接聚焦到 corpus poisoning attacks 之类的安全风险上。论文摘要指出,该框架通过两阶段防御机制过滤被攻击和不相关内容,包括使用 K-means clustering 辨识潜在攻击模式,以及通过 self-assessment 检测恶意文档并解决模型内部知识与外部信息之间的冲突。这里最关键的不是某个百分比,而是研究重心的变化:RAG 不再被视为单纯的信息补充机制,而被视为需要独立防御、独立校验与独立可信建模的系统层。
7.2 可信 RAG 的技术要点
从公开工作看,2025 年可信 RAG 至少围绕三个层面展开。第一是索引与召回层:如何在检索阶段就减少低质量、偏离主题或被污染文档进入候选集。第二是冲突检测层:当外部文档与模型已有知识、不同文档之间,或同一文档不同段落之间发生冲突时,模型如何识别而非盲从。第三是生成与引用层:模型不仅要给出结论,还应给出来源,并尽可能把具体句子与具体证据对应起来。另一篇名为《TrustRAG: An Information Assistant with Retrieval Augmented Generation》的工作就把"indexing, retrieval, and generation"三个维度并列提出,并强调 sentence-level citation enhancement,说明研究者已经把"引用准确性"视为 RAG 输出质量的一部分,而不是附加装饰。
这类变化很值得重视,因为它折射出大模型应用范式的成熟。一个只用于闲聊的模型,可以允许一定程度的模糊与自由生成;但一个用于知识工作、专业问答或决策支持的系统,必须在"我为什么这么说"上经得起追问。RAG 的真正价值,恰恰在于为模型建立一条从问题到证据、再从证据到回答的可追踪路径。若未来几年大模型要进一步进入高要求行业,那么可信 RAG 很可能不只是可选增强,而会成为默认组件。
7.3 RAG 与长上下文、agent 的关系
还需要看到的是,RAG 并不会因为长上下文的扩展而失去价值。相反,窗口越大,模型越可能接收更多来自不同来源的信息,信息组织与证据可信性反而更重要。长上下文解决的是"装得下",RAG 解决的是"找得到、找得准、找得可信"。而当 agent 参与其中时,问题会进一步复杂:模型可能要先检索,再进入网页,再对比多个文档,再调用代码工具进行验证,最后形成回答。这意味着未来的 RAG 不大可能独立存在,而更可能与长上下文、工具调用和工作流编排深度融合。2025 年 OpenAI 对 Responses API、搜索工具、文件搜索和 computer use 的布局,某种程度上正是在为这种融合形态搭建运行平台。
八、Agent 与工具使用:大模型开始真正进入工作流
如果说 2023---2024 年的大模型主要改变了人们获取信息和生成内容的方式,那么 2025 年前后,一个更深层次的变化开始发生:大模型不再只停留在"回答问题"这一层,而是越来越多地进入"执行任务"的范畴。OpenAI 在 2025 年 1 月推出 Operator,并明确说明其底层 Computer-Using Agent(CUA)结合了 GPT-4o 的视觉能力与通过强化学习获得的推理能力,用于在图形界面中像人类一样点击、输入和导航网页。此后,OpenAI 又推出 ChatGPT agent,并在 2026 年 3 月发布 GPT-5.4 时进一步强调其对 long-horizon tasks、planning、execution 与 verification 的支持。Anthropic 也在 Claude 的开发文档中开放了 computer use 工具,使模型可以基于截图、鼠标和键盘控制与计算机环境交互。由此可见,agent 已不再是一个边缘实验方向,而是前沿模型能力体系中的核心组成部分。
从研究逻辑看,agent 的意义在于把大语言模型从"语言接口"推进到"环境接口"。传统语言模型的输入和输出主要局限于文本,而 agent 型系统则必须持续处理状态变化、任务分解、工具调用、错误恢复与结果校验等问题。这意味着模型面对的已不再是单纯的自然语言分布,而是一个动态变化、包含权限边界和真实反馈的外部环境。也因此,agent 技术的前沿并不仅在于"是否会调用工具",更在于"能否在复杂环境中以较高成功率和较低风险持续完成任务"。
8.1 OpenClaw 现象:Agent 从"可演示"走向"可需求"
2026 年初,OpenClaw 的快速走红成为 agent 发展史上一个极具标志性的事件。根据媒体报道,OpenClaw 由奥地利开发者 Peter Steinberger 推动,其前身曾使用过其他名称,项目自 2025 年 11 月推出后在极短时间内获得了广泛关注,GitHub 星标数快速突破十万量级,并在一周内吸引了数百万访问量。该报道还指出,OpenClaw 被用于处理邮件、保险、航班等任务,并迅速成为新一轮 agent 创业和应用热潮的中心之一;Steinberger 本人随后宣布加入 OpenAI,而 OpenClaw 将转入基金会形态并继续保持开放与独立。
OpenClaw 之所以重要,不仅在于它"火了",更在于它把 agent 的产品价值以一种极其直接的方式展示出来。过去关于 agent 的讨论,很多时候停留在研究 demo 或平台概念层面;而 OpenClaw 的爆发式传播表明,用户和开发者对"可执行型 AI 助手"的需求是真实存在的。它所引发的热潮,也说明 agent 已经从"技术上能不能做出来"的问题,转向"如何低门槛部署、如何嵌入现实工作流、如何形成生态"的问题。从这个意义上说,OpenClaw 并不是一个孤立的热门项目,而是 agent 研究进入产业扩散阶段的典型案例。
8.2 OpenClaw 的另一面:能力越接近现实,系统问题越突出
然而,OpenClaw 的流行并不意味着 agent 已经"成熟定型"。恰恰相反,它的成功也同步放大了 agent 技术的一系列深层问题。2026 年 3 月,多个地方政府和产业园区一度积极推动 OpenClaw 生态建设,但与此同时,监管层面对其数据访问、跨境流动和高权限运行表达了明显警惕;随后又有报道显示,部分政府机构和国有单位已对 OpenClaw 的安装和使用提出限制或警示。也就是说,agent 的现实扩散越快,安全、权限和治理问题就越快从"潜在风险"转变为"现实议题"。
微软安全团队在 2026 年 2 月发布的分析中,对 self-hosted agents 的风险结构做了更系统的梳理。该文指出,这类系统通常同时面对两条不可信供应链:一条是外部技能与扩展形成的代码供应链,另一条是网页、邮件、文档等外部文本输入形成的指令供应链;当一个 agent 持有持久凭证、能够执行代码并能读取非可信输入时,这两条风险链会汇聚进同一个执行闭环,从而放大身份滥用、环境污染、敏感信息泄漏与宿主机被攻陷的可能性。OpenClaw 之所以被安全研究重点讨论,不是因为它失败,而恰恰是因为它足够接近真实工作场景,以至于这些问题不再能够被抽象地忽略。
因此,更准确的判断应当是:OpenClaw 的成功证明了 agent 方向已经越过了"是否有需求"的门槛,但并没有越过"是否已经普遍稳定、安全、可控"的门槛。换言之,OpenClaw 不是"agent 已经完全成熟"的证据,而是"agent 已经足够重要,必须把系统级问题摆到台前"的证据。它让人们第一次如此直观地看到,agent 的核心竞争不仅在于模型会不会调用工具,也在于系统是否具备权限边界、运行时隔离、来源审计、失败恢复与风险控制能力。
8.3 连接器、标准与运行时:Agent 正在从单体能力转向生态能力
除了单个 agent 项目的兴起,2025 年另一个值得重视的进展,是围绕连接器和协议标准的生态化尝试。Anthropic 在 2024 年底提出 Model Context Protocol(MCP),将其定位为连接数据源与 AI 工具的开放协议;OpenAI 在 2025 年的开发文档中也逐渐引入与 MCP 相关的连接器体系,并在后续公开文章中表示成为 MCP 的早期采用者和贡献者。与此同时,OpenAI 的 Responses API 持续纳入 web search、file search、computer use 等能力,表明 agent 的竞争已不再只是"谁的模型更聪明",而是"谁能把模型、工具、数据源与运行时系统组织得更稳"。
从这个角度看,OpenClaw、Operator、ChatGPT agent、Claude computer use 并不是彼此割裂的事件,而是共同构成了一条清晰的发展路线:大模型正从单轮问答系统转变为可连接、可执行、可调度的智能体系统。在这条路线中,模型能力仍然重要,但越来越不能脱离环境建模、上下文管理、连接协议和安全治理单独讨论。真正成熟的 agent,不会只是一个"更会点鼠标的模型",而会是一套能够在外部环境中长期运行、可审计、可恢复、可约束的系统。
8.4 对 Agent 发展阶段的客观判断
因此,若要对 2025---2026 年的 agent 发展阶段做一个尽量客观的判断,可以概括为:agent 已经证明了产品方向成立,但尚未证明自己在广泛、高权限、长时程现实环境中已经足够成熟。OpenClaw 的成功说明市场需求、开发者热情与应用想象力都是真实存在的;而围绕其产生的监管警示与安全分析,又提醒研究界和产业界:下一阶段的关键问题不是"agent 能不能做事",而是"agent 在做事时如何保持边界、稳定与可控"。
九、开源模型与生态重构:从"追赶闭源"到"塑造分工"
9.1 DeepSeek 与 Llama 4:开源阵营的两种代表
2025 年的大模型讨论若只看闭源前沿,会漏掉一个极其关键的现实:开源阵营已经不再只是"二线追赶者",而开始对技术路线、成本结构和产业采用方式产生实质影响。DeepSeek-R1 的发布就是典型例子。其官方发布页不仅给出技术报告,还强调 open-source 模型与 distilled models,这意味着它不仅在能力层面参与竞争,也在模型可获得性与再分发层面扩大了影响。另一方面,Meta 在 2025 年 4 月推出 Llama 4 Scout 与 Maverick,并把它们定位为 open-weight、natively multimodal 模型。Scout 与 Maverick 的 active parameters、总参数和上下文能力等信息由官方和模型页明确给出,显示出开源阵营在结构设计与多模态整合上的持续推进。
这两者代表了开源生态的两种不同力量。DeepSeek 更鲜明地体现了"以高性价比和开放权重推动研究与部署扩散"的路径;Meta 则更像"以大型基础设施与平台影响力推动开放模型生态"的路径。它们未必在所有能力维度上等同于最强闭源模型,但它们共同改变了整个领域的比较方式:用户和研究者不再只有"直接使用闭源 API"这一条路,还可以在一定程度上自己部署、蒸馏、改造与微调。对于高校、研究机构、中小企业与本地化场景来说,这种可获得性本身就是能力的一部分。
9.2 开源并不意味着简单,开放权重也不等于完全自由
需要保持清醒的是,"开源大模型"的说法在现实中有不同层级。以 Meta 的 Llama 4 为例,公开可获取的模型权重与社区许可确实大幅降低了使用门槛,但这并不意味着它在所有意义上都符合传统自由软件社区对 open source 的严格定义。Hugging Face 上的 Llama 4 相关页面明确附带社区许可协议,说明其开放是带条件的。也正因此,讨论开源大模型时,更准确的说法往往是 open-weight models,而不是在一切语境下都直接等同于开源软件。
不过,从技术扩散角度看,这种区别并不削弱开放模型的现实价值。它们让更多人能够直接评估模型、比较系统、构建本地部署方案,并在推理服务、微调和蒸馏方面形成社区创新。vLLM、开源推理栈、各类量化与 serving 框架之所以在 2025 年之后格外重要,也正是因为开放模型给了系统工程一个大规模真实用例基础。于是,开源生态并不是闭源生态的简单替代,而是逐渐形成一种分工:闭源模型推动极限能力、平台集成与高价值商业场景,开放模型推动研究复现、低成本应用与生态普及。
9.3 开源生态的研究意义
从学术角度看,开放生态的意义甚至不仅在于"可用"。它还关系到可验证性、可复现性与社区创新速度。一个完全黑盒的模型系统,即使性能极强,也难以成为细粒度研究对象;而开放权重、技术报告、蒸馏模型和周边工具链的开放,则让研究者有机会去分析模型行为、测试服务系统、验证量化方法、探索新型后训练策略。DeepSeek-R1 的影响在某种意义上就不只是"它本身强不强",而在于它把推理模型的研究进一步推向了社区层面。对一个正在快速变动的领域来说,这种可被共同研究的能力,本身就是推动前沿演进的重要力量。
十、安全、可控与系统边界:大模型越实用,治理问题越前置
10.1 安全问题为何在 2025 年后更突出
大模型安全从来不是新话题,但在 2025 年前后,它的地位明显上升。原因并不神秘:当模型只是生成一段文本时,错误往往停留在认知层面;当模型开始检索外部资料、操作浏览器、调用 shell、阅读企业文档甚至使用计算机环境时,错误会迅速转化为现实风险。OpenAI、Anthropic 等公司在模型发布与系统卡中不断强调安全测试、guardrails、responsible scaling 与使用政策,正是这种转变的直接反映。Claude Opus 4 / Sonnet 4 的 system card 专门详细介绍了 pre-deployment safety tests;GPT-4.5 system card 也把安全评估、幻觉与行为风险纳入正式说明。这些材料显示,安全不再是模型上线前顺手补上的一层"审核壳",而是模型系统设计中的基础约束。
同时,安全问题也越来越多地与 agent 和工具环境绑定。Anthropic 在 computer use 文档中明确把其标为 beta;OpenAI 在 computer-use 与 Responses API 相关说明中同样强调受控环境与运行时设计。这说明前沿公司很清楚:一旦模型开始对真实软件和网页采取行动,安全与权限设计就必须前置。否则,一个看似聪明的系统很可能在错误网站点击、误发消息、误执行脚本或错误处理企业数据时造成实质后果。
10.2 可信性的内涵正在扩展
在更宽的意义上,大模型"可信"已经不只是指"少输出有害内容"。2025 年以后,可信性至少包括四层含义。第一层是知识可信:模型的事实表述应尽可能有根据,尤其在引入 RAG 后应能追溯证据。第二层是行为可信:模型在多步任务中是否会偏离目标、擅自推断或误用工具。第三层是系统可信:连接器、MCP、文件搜索、代码执行等外部接口是否足够安全可控。第四层是社会可信:模型在敏感领域部署时,是否满足组织与监管要求。随着模型从"对话引擎"走向"生产系统",这四层可信性会越来越难分割。
因此,未来的大模型治理恐怕不会只靠"更强的对齐模型"解决。它还需要运行时权限控制、来源追踪、操作日志、失败恢复机制、可验证引用和更清晰的边界设计。某种意义上说,2025 年以后大模型最重要的成熟标志,不是"像人一样聪明",而是"像可靠系统一样有边界"。这会把研究重点从模型内部参数进一步拓展到模型外部制度与系统架构。
十一、产业与研究的相互塑造:大模型为何越来越像"基础设施"
11.1 研究议题正在受真实工作流牵引
观察 2025 年前后各家官方发布,一个共同现象是:模型说明越来越少使用抽象宏大但空泛的词,而越来越多地提到 coding、research、analysis、tool use、computer use、workflows、connectors、context、verification 等具体能力。这不是营销话术的偶然变化,而是市场需求反向塑造研究议程的结果。企业并不需要一个只会在 benchmark 上漂亮得分的模型,它们更需要能接文件、读资料、跑流程、查网页、写代码、追踪上下文、控制成本的模型系统。研究前沿之所以在推理、RAG、long context、agent、serving、MCP 等方面高度集中,本质上正是因为这些问题都与"让模型进入真实工作流"有关。
这也解释了为什么 GPT-5、Claude 4、Gemini 2.5、Llama 4、DeepSeek-R1 虽然路线不同,却都在一定程度上围绕"可工作"展开:有的强调 reasoning,有的强调 hybrid thinking,有的强调 multimodality 与 long context,有的强调 open-weight 与成本效率,有的强调 agent 与 computer use。它们竞争的不再只是"谁更像会聊天的机器",而是"谁更接近可部署的通用智能工具"。在这个意义上,大语言模型已经越来越像一种基础设施:其价值取决于与数据、软件、接口、组织流程和人的协作方式。
11.2 "模型能力"与"系统能力"的边界正在消失
另一个值得强调的变化是,"模型能力"和"系统能力"的边界正在变得模糊。过去人们习惯问:这个模型在什么 benchmark 上得了多少分?但今天更有意义的问题往往是:这个系统能否在一个复杂任务里持续成功?要回答后一个问题,就不能只看参数和分数,还要看工具链、上下文窗口、运行时、内存管理、连接器、安全边界和工作流编排。vLLM 对高效 serving 的意义、MCP 对 agent 生态的意义、Responses API 对工具集成的意义,都说明一个事实:模型已经很难脱离系统单独存在。
这意味着未来的研究者也需要调整视角。单看模型论文已经不足以完整把握前沿,必须同时关注 system card、开发者文档、协议标准、运行时设计与开放生态。谁能把这些层面真正打通,谁才可能在下一阶段的大模型竞争中形成持续优势。2025 年不是大语言模型研究终局,反而更像一个起点:模型开始从单纯的"语言模型"蜕变为"可推理、可连接、可执行、可治理的智能系统"。
十二、未来趋势:大语言模型将走向何处
12.1 趋势一:推理将继续强化,但会越来越"按需化"
未来几年的推理增强,大概率不会只是继续拉长思维链,而会更强调按需触发、按需分配计算资源。GPT-5 的 unified system 与 router、Claude 4 的 hybrid reasoning,都已经显示出这种方向:不是所有任务都需要最深的思考,但困难任务必须能获得更长、更稳的求解资源。于是,推理能力的发展方向,可能是"在更广任务范围内精细调度推理深度",而不只是机械地增加单次思考长度。
12.2 趋势二:Agent 将从"会用工具"走向"会管理任务"
未来真正拉开差距的 agent,不会只是能调用更多工具,而是能更可靠地管理长时程任务:规划、执行、验证、纠错、恢复、记录与交接。GPT-5.4 对长时程任务、规划、执行与验证能力的强调,OpenAI 对 production-grade agents 的持续布局,以及 OpenClaw 在 2026 年初引发的快速扩散,都说明 agent 已经从"可演示"进入"可需求"阶段。
但 OpenClaw 所伴随的监管警示与安全研究也表明,下一阶段 agent 的竞争焦点将逐步从"能力展示"转向"系统治理"。谁能够更好地处理权限隔离、运行时控制、连接器安全、失败恢复与审计追踪,谁才更可能在企业级和公共场景中真正落地。因此,未来的 agent 研究大概率不会止步于"让模型会点按钮",而会进一步发展为"让模型在复杂环境中可控地承担工作责任"的系统工程。
12.3 趋势三:长上下文会继续增长,但有效利用能力比窗口数字更重要
窗口继续扩大几乎是可以预见的,但真正决定体验和价值的,不是上下文数字本身,而是模型在长上下文中如何检索关键线索、压缩无关信息、维持任务主线并与外部检索系统协同。也就是说,未来长上下文研究更可能走向"长上下文 + 检索 + 结构化记忆 + 工具"的综合体系,而不是单纯堆大窗口。
12.4 趋势四:多模态将越来越深地嵌入执行环境
多模态模型的下一阶段重点,很可能不是"看图聊天更自然",而是"在图形界面、视频流、文档页面、图表和软件环境中形成稳定推理与动作能力"。这意味着多模态研究会进一步与 computer use、GUI agent、视觉 grounding 和 step-wise reasoning 结合。R1-VL、CUA、Claude computer use、GPT-5.4 computer use 已经构成这条路径的清晰起点。
12.5 趋势五:可信性与治理将不再是附录,而是设计前提
只要模型继续向知识工作和行动环境渗透,可信性就会不断前置。从 RAG 的引用与鲁棒性,到 system card 的安全评估,再到连接器和运行时权限控制,未来的大模型系统必须在设计阶段就考虑风险边界。这既是技术问题,也是组织问题,更是模型进入现实世界的必要门票。
十三、结语:大语言模型的下一章,不只是更聪明,而是更可靠
回望 2025 年及其前后这一段时间,大语言模型的演进呈现出一种非常鲜明的气质变化。早期的大模型浪潮带给人们的是震撼:机器突然能写、能答、能翻译、能总结,像一场语言能力的洪水漫过技术世界。而到了 2025 年,这场洪水开始分流成更具体、更扎实的河道:有的河道通向推理,有的通向多模态,有的通向 agent,有的通向 RAG 与可信引用,有的通向系统工程与高效推理,还有的通向安全、标准与治理。前沿不再只存在于模型参数规模的竞赛中,而开始存在于一个更加广阔、也更加复杂的系统空间之中。这些事实共同推动着大模型从"会说"走向"会做"。其中,OpenClaw 的迅速崛起尤其具有象征意义:它让人们更加清楚地看到,agent 不再只是研究概念或平台展台上的演示品,而已经进入真实需求、真实部署和真实争议之中。
也正因为如此,今天的大语言模型研究值得期待的地方,不只是它变得更聪明了,而是它正在逼近一个更高要求的目标:成为能够在现实环境中长期运转的可靠系统。OpenClaw 的走红和围绕它出现的安全争议,其实共同说明了同一件事------下一阶段的大模型竞争,不仅比拼能力边界,也比拼系统边界。谁能把推理、工具、上下文、运行时与治理真正织成一张稳定的网,谁才更有可能写下大语言模型发展的下一章。