2025 大模型的发展

AI的2025关键进展

从Karpathy的视角来看

1. 模型训练方法

经典的模型获取范式(对数据和算力的强依赖,典型地通过预训练-- 监督微调-- RLHF三个步骤, 2020-2025年初)-->由于数据无法达到像算力的增长水平,所以寻找新的模型能力提升变得尤为关键

  • 思路1: 获取高质量数据 > 获取海量数据()
  • 思路2:更有效的训练方法(摆脱数据强依赖),典型的就是DRPO,泛化来讲就是RLVR(Reinforcement Learning from Verifiable Rewards,RLVR)
  • 关键创新来自于让模型在可自动验证环境中接受强化学习训练,例如数据题、代码或者逻辑题等。基于模型自行探索的策略,把复杂问题拆解为中间步骤,并反复试探、修正,进而逼近答案(在DeepSeek R1中很多优秀的案例)
  • 相比以往的SFT或者RLHF,有些_推理过程_是很难认为设计的。RLVR则是通过奖励函数优化,让模型自行摸索,找到最有效的解题方式
  • 此外,与SFT和RLH这种_计算量相对较小的薄层微调_来说,RLVR使用更客观、难以被投机取巧的奖励函数,使得训练可以跑的更久。结果就是RLVR提供了更高的能力/成本比,大量吞噬了原本用于预训练的算力

结论:2025年的大部分模型性能提升,不是来自于模型规模的暴涨,而是来自相似规模模型 + 更长的RL训练。并在此阶段引入了新的 scaling law:通过推理阶段生成更长的思考链条、投入更多的测试时算力,模型能力持续提升,呈现出新的scaling law

  • OpenAI的 o1 是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本
相关推荐
B博士1 小时前
科研进展 | JAG: 大光斑高光谱激光雷达遥感辐射传输模型从垂直视角解锁森林叶绿素分布密码
人工智能·jag·高光谱激光雷达·森林分层叶绿素诊断
Yao.Li2 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦2 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工4 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬8 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志8 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114248 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠8 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光9 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好9 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型