25年了，大模型最新的技术和概念“究竟”都有哪些？

突然就想来个梳理，25年又过去了一半，当下，大模型最新、最热的概念有哪些？

不妨一起来看看看👀

DeepSeek 模型蒸馏带来的颠覆

过去一年，大模型的体型越来越大，OpenAI、Google、Anthropic、DeepSeek 等玩家纷纷推上数千亿、甚至万亿参数级别。这么多参数，真的是每次推理都用上了吗？

答案是------不是。

今年，随着 GPT-4 逐步显露出"专家模型"架构的影子，DeepSeek-V3 正式确认走上 Mixture of Experts（MoE）路线，这个十年前的架构思路正在以更加高效与精巧的方式，强势回归主流。

在传统 Transformer 架构中，每一次输入都会激活模型的全部参数（Dense Transformer），无论是简单问句，还是复杂代码生成，计算成本都居高不下。

而 MoE 模型的关键突破是：

模型中有多个"专家子网络"，每次只激活其中少数几个来参与推理。

简单来说，就像公司里有 100 个专家，来个问题不用每次都全体开会，而是由路由机制智能挑选出 2~8 位专家来解答。

OpenAI 虽未正式披露 GPT-4 架构，但多个分析证据指出，其具备典型的 MoE 特征：

查询响应速度远高于密集模型；
在复杂任务上"应对如流"，但在简单任务上保持高效；
多模型间能力分布呈现分工特性。

DeepSeek-V3 则在官方仓库中明确使用了 MoE 路线。更有意思的是，它并不是在整个模型上做 MoE，而是局部模块才使用专家分支，这种局部稀疏激活（Local MoE）架构避免了训练难度陡增的问题。

DeepSeek-V3：我们用 MoE，但不是暴力铺参数，而是融合稀疏与 dense 的"可控演进"。

从最初的 Top-K 选择，到 GShard、Switch Transformer、V-MoE，现在的路由器可以更智能地选择专家，避免负载失衡（一个专家被调用过多）和训练不稳定。

✅ DeepSeek-V3 的调度器结合了 token 分布与温度调节，实现专家调度负载均衡。

早期 MoE 难以 end-to-end 训练，容易梯度爆炸、训练不收敛，现在配合低秩适配（LoRA）、稳态初始化与注意力控制等方法，训练 MoE 不再是玄学。

模型	参数量（总）	激活参数	MMLU（Zero-shot）	推理延迟
DeepSeek-V2	130B	130B	73.4	高
DeepSeek-V3-MoE	236B（16专家）	~30B（4激活）	75.9	低

在大厂环境下，MoE 将成为 性能与成本的最佳平衡点，在 RAG 系统、Agent 工具链、大规模对话服务中展现出强大生命力。

模态之间的真正跨越

过去两年，大模型的能力主要集中在文本处理上：写诗、生成代码、对话问答...... 25年，大模型也正在变得多模态，甚至逐步向"统一感知+统一生成"迈进。

GPT-4o，是目前多模态融合能力最均衡的通用模型之一。它最大的突破，不在于能看图（GPT-4V 已有），也不是能做 OCR、图文问答，而在于它真正打通了语音的输入和输出流程。

过去的语音助手，本质是"语音识别 + 文本大模型 + 语音合成"三段式。而 GPT-4o 实现了端到端的语音交互神经网络，响应速度能压缩到 232ms，已经接近真人对话的节奏。

Google 的 Gemini 1.5 另辟蹊径，不是去追求语音交互的即时感，而是把重点放在了大上下文窗口 + 多模态理解能力的深度结合。

它支持百万 token 的上下文，意味着你可以一次性输入一整个 PDF、一个会议纪要视频、一个嵌入语音的多媒体网页，Gemini 都能保持语境一致地给出反馈。对企业用户来说，这是模型首次具备了"读懂全流程"的能力。

更重要的是，25年，Gemini 和 Google 原生生态联动强，比如 Google Docs、Android 等系统级产品接入，让多模态场景直接进入日常办公和用户设备。这不是能力展示，这是平台战略。

还有 Anthropic Claude 3，不像 GPT-4V 那样泛用，而是非常擅长处理结构化信息，如图表推理、手写体 OCR、复杂表格解析。

从奖励机制到选择更优

尽管 RLHF 在早期为 GPT-3.5 和 GPT-4 的训练带来了巨大突破，但到了 2025 年，这种训练范式已显疲态。

它的标准流程是先通过大量高质量的人类指令数据进行 SFT，然后收集对回答的偏好数据，训练一个奖励模型，最后通过强化学习算法如 PPO去调整语言模型的输出概率，使其更偏向得分高的回答。

这听起来很科学，像是在为模型引入"价值判断"的能力，但实践中问题远比理论复杂。

首先，奖励模型本身并不稳定。人类打分本就带有主观性和噪声，而一旦用这些不稳定的数据训练出 RM，模型很容易学习到错误的偏好模式。

其次，语言模型并不是强化学习的理想应用场景，PPO 这类策略优化方法在高维自然语言空间里难以收敛，容易陷入"调参玄学"。

最可恶的是，模型在优化过程中往往学会的是"骗分"技巧而不是内化人类的真实偏好，出现了所谓的行为不可解释性。

25年，在反复试验和思考之后，社区开始意识到：我们真正想教会模型的，不是"这个回答值 8.2 分"，而是"在人类看来 A 明显比 B 更好"。

从打分到排序，这一视角的转变孕育了 DPO！

RLHF 是起点，DPO 不是终点。

DPO 不再依赖奖励函数，也不使用策略梯度优化。它直接以人类的偏好排序数据为训练输入，比如"在同一个 prompt 下，答案 A 优于 B"。然后优化模型参数使得其对更受偏好答案的生成概率更高，这种方法不需要构建奖励模型，也无需强化学习框架，训练流程更稳定、计算更高效、实现更简单。

MCP 带来的 Agent 革命

25 年，整个行业已经在发生一场更根本的范式转移：我们不再满足于"问了就答"，而是期待"说了就做" 。

这，就是智能体（Agent）范式的核心跃迁：从语言模型走向行动代理（Action Agent）。

在这个过程中，模型的角色不再是被动响应问题的文本引擎，而是变成了具备自主任务理解与执行能力的"任务体" 。它不仅理解你想干什么，还能自己拆解任务、调用工具、追踪进度、生成结构化结果，甚至在遇到问题时自我修复、自我提问、自我重试。

从最初的 Prompt-only 模式，模型依靠长 prompt 来"伪装执行力"；

到后来引入 Tool Use，模型可以调用函数、插件、API 完成特定操作；

再到 Multi-step Agent，模型开始具备多轮推理与任务规划能力；

然后是 AutoGPT、BabyAGI、CrewAI 等一批自动执行框架的兴起，让模型不仅能调用，还能持续执行流程；

最终演化到今天的 MCP+ Function Agent 体系，构建起了模型和数据、函数、状态之间的真正"流程接口"。

其中：25年 MCP 爆火的真正原因：让大模型"穿上工装"进入系统，提供了解耦、安全、跨平台的解决方案。

arduino 复制代码

┌──────────────┐           ┌──────────────┐
│ Claude (Host)│◄──MCP───►│ MCP Server A │ → 访问本地数据库
└──────────────┘           └──────────────┘
         │                         │
         │                         └── 本地文件、数据、插件
         │
         │           ┌──────────────┐
         └──MCP────► │ MCP Server B │ → 连接远程 API、云服务
                     └──────────────┘

MCP 不是孤立的。它和 Agent 架构天然契合，成为构建多步骤、上下文感知、工具调用型智能体的理想桥梁。举个例子，你可以：

把一个审批流定义为 MCP 会话；
模型调用 MCP Server 获取当前审批状态；
自动调用发送邮件/流程提交 API；
等待返回，再触发下一轮模型计划；
整个过程用 MCP 做上下文管理与数据桥接。

现在能带更多的 token

记得 23 年时，GPT-3 的上下文窗口是 2K token，写个长点的 prompt 都要精简删词。如今，仅仅两年过去，Claude 3 的窗口达到了 100 万 token ，上下文窗口的极限被彻底改写。

Claude 3 Opus：上下文上限 1M token，可用于法律文档、合并报告、多阶段推理等复杂任务；
Gemini 1.5 Pro：支持跨模态 token 融合，能分析视频脚本 + 配套图表；
Command R+（Anthropic） ：在上下文长度和记忆调度之间找到较好平衡，适合中等复杂任务；
Mistral Mixtral + Memory Agents：探索持久化记忆和大 token 接入点的组合方案。

这就像从 32GB RAM 到 1TB RAM 的升级，不是为了开更多浏览器，而是为了运行真正复杂的应用。

大模型开始理解这个世界

25 年迅速升温的研究方向：World Model 与 Internal Simulation。它代表着一个根本性的转变：模型不再只是输入-输出的响应机制，而是开始在内部构建"对世界的理解与预测"，拥有了属于自己的"心理表征"和"前景模拟"能力。

如果我们回顾人类的决策方式，会发现几乎所有复杂行为都依赖于先预演、再执行：下棋前你会在脑中模拟几步棋；出差前你会预想航班、会议、休息的时间流；甚至一句话说出口前，我们往往已经在心里彩排过一次。而大模型，如果要承担更复杂的任务，不仅仅是理解输入和输出之间的映射关系，更需要构建起对"当前状态"和"可能未来"的内部建模能力。

围绕这一目标，诞生了一系列具有代表性的研究。

1、比如《Tree of Thoughts》提出了一种结构性思维模拟机制，模型不再一次性给出答案，而是逐步生成"思维树"，在其中展开不同路径的分支探索，每一个子节点都代表一种解法的延续，并最终选择其中最优路径。这与人类解决复杂问题时"从思路开始、逐步展开"的过程高度一致。

2、《Generative Simulation》更进一步，将语言模型视为一种"模拟器"，它不仅生成语言，还模拟因果关系、角色互动、事件推进等动态过程。这种模型可以设定"世界状态"，并通过语言连续地模拟一个环境中的演化过程。它不是被动应答，而是在构建"自己理解中的世界"，并在其中演练接下来的策略。

3、类似地，《Self-Refine》也在探索"模型如何意识到自己的输出不够好"，并通过自我评估与修正机制进行反复打磨。模型第一次在架构层面具备了"自己对自己输出不满意"的能力，从而开启了语言智能的"元认知"阶段。

这些方法共同指向一个趋势：大模型不再只是一个"语言转换器"，而是一个内置了假设推理引擎的智能体。它可以对复杂情境进行内在建模，基于世界状态预测多种可能的结果，并从中选择出更稳妥、更优雅或更具成功概率的选项。

这种能力的价值，在很多任务场景中变得不可替代。

组合优化、路径规划、调度安排，这些都需要模型具备全局视角和局部灵活性的平衡；

在代码生成与自动修复中，模型需要理解函数的依赖链和调用关系，

这本质上也是一种"代码世界"的建模；甚至在复杂问答中，模型需要预判用户的下一个问题，或理解上下文中尚未明说的信息，这背后都离不开对"对话世界"的隐性模拟。

大模型演变成操作系统了

越来越多的工程实践正揭示出一个新的趋势------大模型正在成为"操作系统级别"的存在。

在这个新范式下，大模型不再是"被调度"的资源，而是整个软件运行时的"调度者"。

看看 GPT-Engineer，这是一个能自动生成完整代码结构的工具链。你给它一个任务，它不是吐出几段代码，而是思考模块划分、决定文件组织、反复询问需求------它以"项目执行体"的姿态完成一个工程原型。再看 OpenDevin 或 Devika，它们不仅能写代码，还能运行它们，读控制台输出，捕捉错误并尝试修复，像一个真正有"系统控制权"的助手一样运行整个循环。它们不只是把大模型当代码助手，而是把大模型当内核，围绕它构建软件行为。

很多 LLM-native 工具已经开始绕过传统 UI/UX 的逻辑，而是直接在模型中构建对话式指令流、链式执行器、策略分支和上下文状态机。软件开发不再是"写一个工具给用户点"，而是"设计一个角色与模型对话，达成目标"。

语言变成了系统控制的主入口，提示（prompt）变成了配置文件，记忆（memory）变成了状态容器，调用链（function call）变成了 API 调度层。

未来我们构建的不是"用 LLM 的产品"，而是"由 LLM 驱动的系统"。

涌现!!

或许所有关于大模型的讨论，最终都会落回这个问题上：它为什么会突然变得"像有智慧"？

这背后隐藏着一个至今尚未被完全理解、却已反复被观察到的现象：自监督涌现（Emergent Abilities via Scaling） 。这是大模型最具神秘色彩、同时也最具范式突破性的特征之一。简单说，就是------模型变大到某个阈值后，开始展现出从未显性训练过的能力。

我们已经见过无数这样的时刻：一个模型在参数量从 13B 增加到 30B 时，突然能解初等数学题了；GPT-3.5 还对代码支支吾吾，但 GPT-4 却能写出结构清晰、可运行的 React 应用；Claude 在 Opus 级别开始掌握微妙的对话节奏与情感递进，甚至在角色扮演中表现出比真人更精细的语用控制。

这些不是简单的"多了训练数据"，而是在某种深层结构被激活后，模型开始自发表现出组合推理、规划、社会常识理解、价值观模拟、任务链建构等跨维度能力。

为什么会这样？没人能给出确定答案。

OK，以上便是本次分享~