25年了,大模型最新的技术和概念“究竟”都有哪些?

突然就想来个梳理,25年又过去了一半,当下,大模型最新、最热的概念有哪些?

不妨一起来看看看👀

DeepSeek 模型蒸馏带来的颠覆

过去一年,大模型的体型越来越大,OpenAI、Google、Anthropic、DeepSeek 等玩家纷纷推上数千亿、甚至万亿参数级别。这么多参数,真的是每次推理都用上了吗?

答案是------不是

今年,随着 GPT-4 逐步显露出"专家模型"架构的影子,DeepSeek-V3 正式确认走上 Mixture of Experts(MoE)路线,这个十年前的架构思路正在以更加高效与精巧的方式,强势回归主流。

在传统 Transformer 架构中,每一次输入都会激活模型的全部参数(Dense Transformer),无论是简单问句,还是复杂代码生成,计算成本都居高不下。

而 MoE 模型的关键突破是:

模型中有多个"专家子网络",每次只激活其中少数几个来参与推理。

简单来说,就像公司里有 100 个专家,来个问题不用每次都全体开会,而是由路由机制智能挑选出 2~8 位专家来解答。

OpenAI 虽未正式披露 GPT-4 架构,但多个分析证据指出,其具备典型的 MoE 特征:

  • 查询响应速度远高于密集模型;
  • 在复杂任务上"应对如流",但在简单任务上保持高效;
  • 多模型间能力分布呈现分工特性。

DeepSeek-V3 则在官方仓库中明确使用了 MoE 路线。更有意思的是,它并不是在整个模型上做 MoE,而是局部模块才使用专家分支,这种局部稀疏激活(Local MoE)架构避免了训练难度陡增的问题。

DeepSeek-V3:我们用 MoE,但不是暴力铺参数,而是融合稀疏与 dense 的"可控演进"。

从最初的 Top-K 选择,到 GShard、Switch Transformer、V-MoE,现在的路由器可以更智能地选择专家,避免负载失衡(一个专家被调用过多)和训练不稳定。

✅ DeepSeek-V3 的调度器结合了 token 分布与温度调节,实现专家调度负载均衡。

早期 MoE 难以 end-to-end 训练,容易梯度爆炸、训练不收敛,现在配合低秩适配(LoRA)、稳态初始化与注意力控制等方法,训练 MoE 不再是玄学。

模型 参数量(总) 激活参数 MMLU(Zero-shot) 推理延迟
DeepSeek-V2 130B 130B 73.4
DeepSeek-V3-MoE 236B(16专家) ~30B(4激活) 75.9

在大厂环境下,MoE 将成为 性能与成本的最佳平衡点,在 RAG 系统、Agent 工具链、大规模对话服务中展现出强大生命力。

模态之间的真正跨越

过去两年,大模型的能力主要集中在文本处理上:写诗、生成代码、对话问答...... 25年,大模型也正在变得多模态,甚至逐步向"统一感知+统一生成"迈进。

GPT-4o,是目前多模态融合能力最均衡的通用模型之一。它最大的突破,不在于能看图(GPT-4V 已有),也不是能做 OCR、图文问答,而在于它真正打通了语音的输入和输出流程

过去的语音助手,本质是"语音识别 + 文本大模型 + 语音合成"三段式。而 GPT-4o 实现了端到端的语音交互神经网络,响应速度能压缩到 232ms,已经接近真人对话的节奏。

Google 的 Gemini 1.5 另辟蹊径,不是去追求语音交互的即时感,而是把重点放在了大上下文窗口 + 多模态理解能力的深度结合

它支持百万 token 的上下文,意味着你可以一次性输入一整个 PDF、一个会议纪要视频、一个嵌入语音的多媒体网页,Gemini 都能保持语境一致地给出反馈。对企业用户来说,这是模型首次具备了"读懂全流程"的能力。

更重要的是,25年,Gemini 和 Google 原生生态联动强,比如 Google Docs、Android 等系统级产品接入,让多模态场景直接进入日常办公和用户设备。这不是能力展示,这是平台战略。

还有 Anthropic Claude 3,不像 GPT-4V 那样泛用,而是非常擅长处理结构化信息,如图表推理、手写体 OCR、复杂表格解析。

从奖励机制到选择更优

尽管 RLHF 在早期为 GPT-3.5 和 GPT-4 的训练带来了巨大突破,但到了 2025 年,这种训练范式已显疲态。

它的标准流程是先通过大量高质量的人类指令数据进行 SFT,然后收集对回答的偏好数据,训练一个奖励模型,最后通过强化学习算法如 PPO去调整语言模型的输出概率,使其更偏向得分高的回答。

这听起来很科学,像是在为模型引入"价值判断"的能力,但实践中问题远比理论复杂。

首先,奖励模型本身并不稳定。人类打分本就带有主观性和噪声,而一旦用这些不稳定的数据训练出 RM,模型很容易学习到错误的偏好模式。

其次,语言模型并不是强化学习的理想应用场景,PPO 这类策略优化方法在高维自然语言空间里难以收敛,容易陷入"调参玄学"。

最可恶的是,模型在优化过程中往往学会的是"骗分"技巧而不是内化人类的真实偏好,出现了所谓的行为不可解释性。

25年,在反复试验和思考之后,社区开始意识到:我们真正想教会模型的,不是"这个回答值 8.2 分",而是"在人类看来 A 明显比 B 更好"。

从打分到排序,这一视角的转变孕育了 DPO!

RLHF 是起点,DPO 不是终点。

DPO 不再依赖奖励函数,也不使用策略梯度优化。它直接以人类的偏好排序数据为训练输入,比如"在同一个 prompt 下,答案 A 优于 B"。然后优化模型参数使得其对更受偏好答案的生成概率更高,这种方法不需要构建奖励模型,也无需强化学习框架,训练流程更稳定、计算更高效、实现更简单。

MCP 带来的 Agent 革命

25 年,整个行业已经在发生一场更根本的范式转移:我们不再满足于"问了就答",而是期待"说了就做"

这,就是智能体(Agent)范式的核心跃迁:从语言模型走向行动代理(Action Agent)。

在这个过程中,模型的角色不再是被动响应问题的文本引擎,而是变成了具备自主任务理解与执行能力的"任务体" 。它不仅理解你想干什么,还能自己拆解任务、调用工具、追踪进度、生成结构化结果,甚至在遇到问题时自我修复、自我提问、自我重试。

从最初的 Prompt-only 模式,模型依靠长 prompt 来"伪装执行力";

到后来引入 Tool Use,模型可以调用函数、插件、API 完成特定操作;

再到 Multi-step Agent,模型开始具备多轮推理与任务规划能力;

然后是 AutoGPT、BabyAGI、CrewAI 等一批自动执行框架的兴起,让模型不仅能调用,还能持续执行流程;

最终演化到今天的 MCP+ Function Agent 体系,构建起了模型和数据、函数、状态之间的真正"流程接口"。

其中:25年 MCP 爆火的真正原因:让大模型"穿上工装"进入系统,提供了解耦、安全、跨平台的解决方案。

arduino 复制代码
┌──────────────┐           ┌──────────────┐
│ Claude (Host)│◄──MCP───►│ MCP Server A │ → 访问本地数据库
└──────────────┘           └──────────────┘
         │                         │
         │                         └── 本地文件、数据、插件
         │
         │           ┌──────────────┐
         └──MCP────► │ MCP Server B │ → 连接远程 API、云服务
                     └──────────────┘

MCP 不是孤立的。它和 Agent 架构天然契合,成为构建多步骤、上下文感知、工具调用型智能体的理想桥梁。举个例子,你可以:

  1. 把一个审批流定义为 MCP 会话;
  2. 模型调用 MCP Server 获取当前审批状态;
  3. 自动调用发送邮件/流程提交 API;
  4. 等待返回,再触发下一轮模型计划;
  5. 整个过程用 MCP 做上下文管理与数据桥接。

现在能带更多的 token

记得 23 年时,GPT-3 的上下文窗口是 2K token,写个长点的 prompt 都要精简删词。 如今,仅仅两年过去,Claude 3 的窗口达到了 100 万 token上下文窗口的极限被彻底改写

  • Claude 3 Opus:上下文上限 1M token,可用于法律文档、合并报告、多阶段推理等复杂任务;

  • Gemini 1.5 Pro:支持跨模态 token 融合,能分析视频脚本 + 配套图表;

  • Command R+(Anthropic) :在上下文长度和记忆调度之间找到较好平衡,适合中等复杂任务;

  • Mistral Mixtral + Memory Agents:探索持久化记忆和大 token 接入点的组合方案。

这就像从 32GB RAM 到 1TB RAM 的升级,不是为了开更多浏览器,而是为了运行真正复杂的应用。

大模型开始理解这个世界

25 年迅速升温的研究方向:World Model 与 Internal Simulation。它代表着一个根本性的转变:模型不再只是输入-输出的响应机制,而是开始在内部构建"对世界的理解与预测",拥有了属于自己的"心理表征"和"前景模拟"能力。

如果我们回顾人类的决策方式,会发现几乎所有复杂行为都依赖于先预演、再执行:下棋前你会在脑中模拟几步棋;出差前你会预想航班、会议、休息的时间流;甚至一句话说出口前,我们往往已经在心里彩排过一次。而大模型,如果要承担更复杂的任务,不仅仅是理解输入和输出之间的映射关系,更需要构建起对"当前状态"和"可能未来"的内部建模能力。

围绕这一目标,诞生了一系列具有代表性的研究。

1、比如《Tree of Thoughts》提出了一种结构性思维模拟机制,模型不再一次性给出答案,而是逐步生成"思维树",在其中展开不同路径的分支探索,每一个子节点都代表一种解法的延续,并最终选择其中最优路径。这与人类解决复杂问题时"从思路开始、逐步展开"的过程高度一致。

2、《Generative Simulation》更进一步,将语言模型视为一种"模拟器",它不仅生成语言,还模拟因果关系、角色互动、事件推进等动态过程。这种模型可以设定"世界状态",并通过语言连续地模拟一个环境中的演化过程。它不是被动应答,而是在构建"自己理解中的世界",并在其中演练接下来的策略。

3、类似地,《Self-Refine》也在探索"模型如何意识到自己的输出不够好",并通过自我评估与修正机制进行反复打磨。模型第一次在架构层面具备了"自己对自己输出不满意"的能力,从而开启了语言智能的"元认知"阶段。

这些方法共同指向一个趋势:大模型不再只是一个"语言转换器",而是一个内置了假设推理引擎的智能体。它可以对复杂情境进行内在建模,基于世界状态预测多种可能的结果,并从中选择出更稳妥、更优雅或更具成功概率的选项。

这种能力的价值,在很多任务场景中变得不可替代。

组合优化、路径规划、调度安排,这些都需要模型具备全局视角和局部灵活性的平衡;

在代码生成与自动修复中,模型需要理解函数的依赖链和调用关系,

这本质上也是一种"代码世界"的建模;甚至在复杂问答中,模型需要预判用户的下一个问题,或理解上下文中尚未明说的信息,这背后都离不开对"对话世界"的隐性模拟。

大模型演变成操作系统了

越来越多的工程实践正揭示出一个新的趋势------大模型正在成为"操作系统级别"的存在

在这个新范式下,大模型不再是"被调度"的资源,而是整个软件运行时的"调度者"。

看看 GPT-Engineer,这是一个能自动生成完整代码结构的工具链。你给它一个任务,它不是吐出几段代码,而是思考模块划分、决定文件组织、反复询问需求------它以"项目执行体"的姿态完成一个工程原型。再看 OpenDevin 或 Devika,它们不仅能写代码,还能运行它们,读控制台输出,捕捉错误并尝试修复,像一个真正有"系统控制权"的助手一样运行整个循环。它们不只是把大模型当代码助手,而是把大模型当内核,围绕它构建软件行为。

很多 LLM-native 工具已经开始绕过传统 UI/UX 的逻辑,而是直接在模型中构建对话式指令流、链式执行器、策略分支和上下文状态机。软件开发不再是"写一个工具给用户点",而是"设计一个角色与模型对话,达成目标"。

语言变成了系统控制的主入口,提示(prompt)变成了配置文件,记忆(memory)变成了状态容器,调用链(function call)变成了 API 调度层。

未来我们构建的不是"用 LLM 的产品",而是"由 LLM 驱动的系统"。

涌现!!

或许所有关于大模型的讨论,最终都会落回这个问题上:它为什么会突然变得"像有智慧"?

这背后隐藏着一个至今尚未被完全理解、却已反复被观察到的现象:自监督涌现(Emergent Abilities via Scaling) 。这是大模型最具神秘色彩、同时也最具范式突破性的特征之一。简单说,就是------模型变大到某个阈值后,开始展现出从未显性训练过的能力。

我们已经见过无数这样的时刻:一个模型在参数量从 13B 增加到 30B 时,突然能解初等数学题了;GPT-3.5 还对代码支支吾吾,但 GPT-4 却能写出结构清晰、可运行的 React 应用;Claude 在 Opus 级别开始掌握微妙的对话节奏与情感递进,甚至在角色扮演中表现出比真人更精细的语用控制。

这些不是简单的"多了训练数据",而是在某种深层结构被激活后,模型开始自发表现出组合推理、规划、社会常识理解、价值观模拟、任务链建构等跨维度能力。

为什么会这样?没人能给出确定答案。

OK,以上便是本次分享~

欢迎加我:atar24,备注"llm",我会第一时间通过

相关推荐
西猫雷婶13 分钟前
深度学习|pytorch基本运算-广播失效
人工智能·pytorch·深度学习
北京地铁1号线18 分钟前
华为深度学习面试手撕题:手写nn.Conv2d()函数
人工智能·深度学习·面试
CareyWYR20 分钟前
每周AI论文速递(250526-250530)
人工智能
说私域3 小时前
用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究
人工智能·小程序·开源·流量运营
说私域3 小时前
基于开源链动2+1模式AI智能名片S2B2C商城小程序的企业组织生态化重构研究
人工智能·小程序·开源·零售
Tech Synapse5 小时前
AI赋能金融风控:基于机器学习的智能欺诈检测系统实战教程
人工智能·机器学习·scikit-learn·xgboost
奔跑吧邓邓子5 小时前
DeepSeek 赋能金融反洗钱:AI 驱动的风险监测革新之路
人工智能·应用·deepseek·金融反洗钱·风险监测
Blossom.1185 小时前
人工智能在智能金融中的创新应用与未来趋势
人工智能·深度学习·docker·容器·金融·kubernetes·自动化
技术程序猿华锋7 小时前
Void:免费且隐私友好的 AI 编码利器,挑战 Cursor 地位?
c++·人工智能·mfc
奔跑吧邓邓子8 小时前
DeepSeek 赋能自动驾驶仿真测试:解锁高效精准新范式
人工智能·机器学习·自动驾驶·仿真测试·deepseek