2025 大模型的发展

kkk123442025-12-23 8:58

AI的2025关键进展

从Karpathy的视角来看

1. 模型训练方法

经典的模型获取范式（对数据和算力的强依赖，典型地通过预训练-- 监督微调-- RLHF三个步骤， 2020-2025年初）-->由于数据无法达到像算力的增长水平，所以寻找新的模型能力提升变得尤为关键

思路1：获取高质量数据＞获取海量数据（）
思路2：更有效的训练方法（摆脱数据强依赖），典型的就是DRPO，泛化来讲就是RLVR（Reinforcement Learning from Verifiable Rewards，RLVR）

关键创新来自于让模型在可自动验证环境中接受强化学习训练，例如数据题、代码或者逻辑题等。基于模型自行探索的策略，把复杂问题拆解为中间步骤，并反复试探、修正，进而逼近答案（在DeepSeek R1中很多优秀的案例）
相比以往的SFT或者RLHF，有些_推理过程_是很难认为设计的。RLVR则是通过奖励函数优化，让模型自行摸索，找到最有效的解题方式
此外，与SFT和RLH这种_计算量相对较小的薄层微调_来说，RLVR使用更客观、难以被投机取巧的奖励函数，使得训练可以跑的更久。结果就是RLVR提供了更高的能力/成本比，大量吞噬了原本用于预训练的算力

结论：2025年的大部分模型性能提升，不是来自于模型规模的暴涨，而是来自相似规模模型 + 更长的RL训练。并在此阶段引入了新的 scaling law：通过推理阶段生成更长的思考链条、投入更多的测试时算力，模型能力持续提升，呈现出新的scaling law

OpenAI的 o1 是第一个明确展示RLVR思路的模型，而2025年初的o3则是让人直观感受到质变拐点的版本

上一篇：Go-Package-Module-functions

下一篇：汽车圆柱电池气动点焊机：串并联组合自动化焊接的核心驱动力

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 05OpenClaw + 飞书（Feishu）环境搭建指南 06Window 10部署openclaw报错node.exe : npm error code 128 07Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 08OpenClaw优化飞书API 额度已耗尽问题 09AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 10AI Agent 平台横评：ZeroClaw vs OpenClaw vs Nanobot