2025 年最值得优先读的一批,基本集中在三条主线:推理与 agentic 能力、多模态统一建模、以及新一代高难度评测。([arXiv][1])
一、推理与 Agentic 主线
1. DeepSeek-R1
这是 2025 年最有代表性的"推理模型"论文之一。它的关键点不是单纯把模型做大,而是强调用 纯 RL 路线激发推理能力,并展示了 R1-Zero / R1 这类 reasoning post-training 路线的可行性。读这篇的价值在于,它几乎定义了 2025 年"长思维链 + 强化学习推理模型"的讨论起点。([arXiv][1])
2. Qwen3 Technical Report
Qwen3 很值得读,因为它代表了 2025 年开源 LLM 的一个重要方向:同一模型同时支持 thinking mode 和 non-thinking mode,并且覆盖 dense 与 MoE 两条路线。它不只是性能报告,更像是 2025 年"实用型开源基础模型"的系统总结。([arXiv][2])
3. Kimi K2: Open Agentic Intelligence
这篇很有代表性,因为它把焦点从"纯推理"推进到 agentic intelligence 。论文的亮点包括 1T 总参数 / 32B 激活参数的 MoE 设计 、MuonClip 优化器,以及围绕真实与合成环境交互的后训练流程。它在软件工程和 agent 任务上的强调,很能代表 2025 年下半年的研究方向。([arXiv][3])
4. Gemini 2.5: Pushing the Frontier with Advanced Reasoning
Gemini 2.5 的代表性在于:它把 thinking model、coding、multimodal understanding、长视频处理 放到同一代模型里。官方报告明确写到 Gemini 2.5 Pro 可处理最长 3 小时视频,这说明 2025 年前沿模型已经不再把"推理"和"多模态"分开看。([arXiv][4])
5. EXAONE 4.0
这篇论文很值得读,因为它提出了一个 2025 年很典型的产品化思路:在同一模型体系里统一 non-reasoning mode 与 reasoning mode ,同时加入 agentic tool use。相比只追 benchmark,它更接近"如何把 reasoning 模型变成可用系统"的方向。([arXiv][5])
6. Phi-4-reasoning
这是 2025 年"小而强"路线的代表。它的价值不在参数规模,而在于说明:14B 级别模型通过精心构造的 reasoning SFT 数据和短程 outcome-based RL,也能逼近更大推理模型的表现。这篇很适合和 DeepSeek-R1 对照着读。([arXiv][6])
二、多模态主线
7. Qwen2.5-VL Technical Report
这是 2025 年前期最值得读的 VLM 论文之一。它的重点非常明确:视觉识别、精确定位、文档解析、长视频理解。如果你关心 OCR、图表、GUI、长视频或视觉 grounding,它比很多泛泛的"看图说话"模型更有工程参考价值。([arXiv][7])
8. Kimi-VL Technical Report
Kimi-VL 的代表性在于它把 MoE VLM、长上下文、多模态推理、agent 能力 放到一个高效开源体系里,而且语言解码部分只激活 2.8B 参数。它很适合和 Qwen2.5-VL 一起看:前者更像"强通用 VLM",后者更像"高效 agent 型 VLM"。([arXiv][8])
9. Qwen3-Omni Technical Report
如果你想看 2025 年"omni model"的代表作,这篇很关键。论文主张一个单模型同时覆盖 text、image、audio、video ,并强调不牺牲单模态能力。它体现的是 2025 年后期多模态研究的一个核心目标:从 VLM 走向真正的 omni-modal foundation model。([arXiv][9])
三、评测与"新经典基准"主线
10. Humanity's Last Exam (HLE)
这不是模型论文,而是 2025 年最重要的新 benchmark 之一。它提出的背景很直接:传统 benchmark 被刷得太快,已经很难区分最强模型,所以 HLE 试图做一个覆盖数学、人文、自然科学等领域的 高难度、多模态、闭卷式前沿知识测试。2025 年很多前沿模型报告都会引用它。([arXiv][10])
11. ARC-AGI-2
如果说 HLE 更偏"高知识密度难题",ARC-AGI-2 更偏"抽象推理与流体智能"。它延续 ARC-AGI 的思路,但把任务做得更细、更难,并给出大量 human baseline。2025 年它几乎成了讨论"模型到底有没有更通用推理能力"时绕不开的 benchmark。([arXiv][11])
四、压缩成"最推荐先读的 6 篇"
最核心的 6 篇,建议按这条顺序:
DeepSeek-R1 → Qwen3 → Kimi K2 → Qwen2.5-VL → Humanity's Last Exam → ARC-AGI-2 。
这 6 篇基本能把 2025 年最重要的主题串起来:推理 RL、混合 thinking/non-thinking、agentic intelligence、强 VLM、以及新一代高难 benchmark。([arXiv][1])
五、理解 2025 年的"经典性"
2025 年"经典论文"的共同特征不是再造一个全新骨架,而是三件事:
让模型更会推理,让模型更会调用工具/处理真实环境,让评测真正重新变难。 这也是为什么 2025 年最有代表性的论文,往往同时围绕 reasoning、agent、multimodal、benchmark 四个关键词展开。([arXiv][1])
参考链接:
1\]: https://arxiv.org/abs/2501.12948?utm_source=chatgpt.com "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs ..." \[2\]: https://arxiv.org/abs/2505.09388?utm_source=chatgpt.com "\[2505.09388\] Qwen3 Technical Report" \[3\]: https://arxiv.org/abs/2507.20534?utm_source=chatgpt.com "Kimi K2: Open Agentic Intelligence" \[4\]: https://arxiv.org/abs/2507.06261?utm_source=chatgpt.com "Gemini 2.5: Pushing the Frontier with Advanced Reasoning ..." \[5\]: https://arxiv.org/abs/2507.11407?utm_source=chatgpt.com "EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes" \[6\]: https://arxiv.org/abs/2504.21318?utm_source=chatgpt.com "Phi-4-reasoning Technical Report" \[7\]: https://arxiv.org/abs/2502.13923?utm_source=chatgpt.com "\[2502.13923\] Qwen2.5-VL Technical Report" \[8\]: https://arxiv.org/abs/2504.07491?utm_source=chatgpt.com "\[2504.07491\] Kimi-VL Technical Report" \[9\]: https://arxiv.org/abs/2509.17765?utm_source=chatgpt.com "\[2509.17765\] Qwen3-Omni Technical Report" \[10\]: https://arxiv.org/abs/2501.14249?utm_source=chatgpt.com "Humanity's Last Exam" \[11\]: https://arxiv.org/abs/2505.11831?utm_source=chatgpt.com "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems"