2025年的大模型论文的经典性

2025 年最值得优先读的一批,基本集中在三条主线:推理与 agentic 能力、多模态统一建模、以及新一代高难度评测。(arXiv1)

一、推理与 Agentic 主线

1. DeepSeek-R1

这是 2025 年最有代表性的"推理模型"论文之一。它的关键点不是单纯把模型做大,而是强调用 纯 RL 路线激发推理能力,并展示了 R1-Zero / R1 这类 reasoning post-training 路线的可行性。读这篇的价值在于,它几乎定义了 2025 年"长思维链 + 强化学习推理模型"的讨论起点。(arXiv1)

2. Qwen3 Technical Report

Qwen3 很值得读,因为它代表了 2025 年开源 LLM 的一个重要方向:同一模型同时支持 thinking mode 和 non-thinking mode,并且覆盖 dense 与 MoE 两条路线。它不只是性能报告,更像是 2025 年"实用型开源基础模型"的系统总结。(arXiv2)

3. Kimi K2: Open Agentic Intelligence

这篇很有代表性,因为它把焦点从"纯推理"推进到 agentic intelligence 。论文的亮点包括 1T 总参数 / 32B 激活参数的 MoE 设计MuonClip 优化器,以及围绕真实与合成环境交互的后训练流程。它在软件工程和 agent 任务上的强调,很能代表 2025 年下半年的研究方向。(arXiv3)

4. Gemini 2.5: Pushing the Frontier with Advanced Reasoning

Gemini 2.5 的代表性在于:它把 thinking model、coding、multimodal understanding、长视频处理 放到同一代模型里。官方报告明确写到 Gemini 2.5 Pro 可处理最长 3 小时视频,这说明 2025 年前沿模型已经不再把"推理"和"多模态"分开看。(arXiv4)

5. EXAONE 4.0

这篇论文很值得读,因为它提出了一个 2025 年很典型的产品化思路:在同一模型体系里统一 non-reasoning mode 与 reasoning mode ,同时加入 agentic tool use。相比只追 benchmark,它更接近"如何把 reasoning 模型变成可用系统"的方向。(arXiv5)

6. Phi-4-reasoning

这是 2025 年"小而强"路线的代表。它的价值不在参数规模,而在于说明:14B 级别模型通过精心构造的 reasoning SFT 数据和短程 outcome-based RL,也能逼近更大推理模型的表现。这篇很适合和 DeepSeek-R1 对照着读。(arXiv6)

二、多模态主线

7. Qwen2.5-VL Technical Report

这是 2025 年前期最值得读的 VLM 论文之一。它的重点非常明确:视觉识别、精确定位、文档解析、长视频理解。如果你关心 OCR、图表、GUI、长视频或视觉 grounding,它比很多泛泛的"看图说话"模型更有工程参考价值。(arXiv7)

8. Kimi-VL Technical Report

Kimi-VL 的代表性在于它把 MoE VLM、长上下文、多模态推理、agent 能力 放到一个高效开源体系里,而且语言解码部分只激活 2.8B 参数。它很适合和 Qwen2.5-VL 一起看:前者更像"强通用 VLM",后者更像"高效 agent 型 VLM"。(arXiv8)

9. Qwen3-Omni Technical Report

如果你想看 2025 年"omni model"的代表作,这篇很关键。论文主张一个单模型同时覆盖 text、image、audio、video ,并强调不牺牲单模态能力。它体现的是 2025 年后期多模态研究的一个核心目标:从 VLM 走向真正的 omni-modal foundation model。(arXiv9)

三、评测与"新经典基准"主线

10. Humanity's Last Exam (HLE)

这不是模型论文,而是 2025 年最重要的新 benchmark 之一。它提出的背景很直接:传统 benchmark 被刷得太快,已经很难区分最强模型,所以 HLE 试图做一个覆盖数学、人文、自然科学等领域的 高难度、多模态、闭卷式前沿知识测试。2025 年很多前沿模型报告都会引用它。(arXiv10)

11. ARC-AGI-2

如果说 HLE 更偏"高知识密度难题",ARC-AGI-2 更偏"抽象推理与流体智能"。它延续 ARC-AGI 的思路,但把任务做得更细、更难,并给出大量 human baseline。2025 年它几乎成了讨论"模型到底有没有更通用推理能力"时绕不开的 benchmark。(arXiv11)

四、压缩成"最推荐先读的 6 篇"

最核心的 6 篇,建议按这条顺序:
DeepSeek-R1 → Qwen3 → Kimi K2 → Qwen2.5-VL → Humanity's Last Exam → ARC-AGI-2

这 6 篇基本能把 2025 年最重要的主题串起来:推理 RL、混合 thinking/non-thinking、agentic intelligence、强 VLM、以及新一代高难 benchmark。(arXiv1)

五、理解 2025 年的"经典性"

2025 年"经典论文"的共同特征不是再造一个全新骨架,而是三件事:
让模型更会推理,让模型更会调用工具/处理真实环境,让评测真正重新变难。 这也是为什么 2025 年最有代表性的论文,往往同时围绕 reasoning、agent、multimodal、benchmark 四个关键词展开。(arXiv1)

参考链接:

1: https://arxiv.org/abs/2501.12948?utm_source=chatgpt.com "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs ..."

2: https://arxiv.org/abs/2505.09388?utm_source=chatgpt.com "2505.09388 Qwen3 Technical Report"

3: https://arxiv.org/abs/2507.20534?utm_source=chatgpt.com "Kimi K2: Open Agentic Intelligence"

4: https://arxiv.org/abs/2507.06261?utm_source=chatgpt.com "Gemini 2.5: Pushing the Frontier with Advanced Reasoning ..."

5: https://arxiv.org/abs/2507.11407?utm_source=chatgpt.com "EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes"

6: https://arxiv.org/abs/2504.21318?utm_source=chatgpt.com "Phi-4-reasoning Technical Report"

7: https://arxiv.org/abs/2502.13923?utm_source=chatgpt.com "2502.13923 Qwen2.5-VL Technical Report"

8: https://arxiv.org/abs/2504.07491?utm_source=chatgpt.com "2504.07491 Kimi-VL Technical Report"

9: https://arxiv.org/abs/2509.17765?utm_source=chatgpt.com "2509.17765 Qwen3-Omni Technical Report"

10: https://arxiv.org/abs/2501.14249?utm_source=chatgpt.com "Humanity's Last Exam"

11: https://arxiv.org/abs/2505.11831?utm_source=chatgpt.com "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems"

相关推荐
Raink老师1 分钟前
【AI面试临阵磨枪-84】如何看待 RAG vs 微调(Fine-tuning)?选型依据
人工智能·面试·职场和发展
ApachePulsar6 分钟前
多元协议,总线归一:为何协议灵活性对 AI 智能体至关重要
人工智能
Lkstar6 分钟前
万字长文拆解大模型训练:预训练→微调→RLHF,ChatGPT 是怎么炼成的
人工智能
晓风伴月7 分钟前
Command、Skill、Automation、Connector、Plugin分工详解
人工智能
虾..10 分钟前
大模型认识
人工智能·llm·rag
“码”力全开12 分钟前
解耦流媒体与AI推理:基于Docker与GB28181/RTSP的边缘计算中台,全量源码交付如何帮集成商节省95%开发成本?
人工智能·docker·边缘计算
hsg7716 分钟前
简述:ImageNet2010样本分类列表
人工智能·分类
2601_9594779119 分钟前
Vatee平台平台运行稳定吗?
大数据·人工智能·安全
土拨鼠烧电路20 分钟前
第4章:寄生虫时代——当AI学会呼吸
人工智能·microsoft
bylander21 分钟前
【技术调研】华为《智能世界2035》白皮书调研报告
人工智能·华为