2025年的大模型论文的经典性

2025 年最值得优先读的一批，基本集中在三条主线：推理与 agentic 能力、多模态统一建模、以及新一代高难度评测。( $arXiv$ $1$ )

一、推理与 Agentic 主线

1. DeepSeek-R1

这是 2025 年最有代表性的"推理模型"论文之一。它的关键点不是单纯把模型做大，而是强调用 纯 RL 路线激发推理能力，并展示了 R1-Zero / R1 这类 reasoning post-training 路线的可行性。读这篇的价值在于，它几乎定义了 2025 年"长思维链 + 强化学习推理模型"的讨论起点。( $arXiv$ $1$ )

2. Qwen3 Technical Report

Qwen3 很值得读，因为它代表了 2025 年开源 LLM 的一个重要方向：同一模型同时支持 thinking mode 和 non-thinking mode，并且覆盖 dense 与 MoE 两条路线。它不只是性能报告，更像是 2025 年"实用型开源基础模型"的系统总结。( $arXiv$ $2$ )

3. Kimi K2: Open Agentic Intelligence

这篇很有代表性，因为它把焦点从"纯推理"推进到 agentic intelligence 。论文的亮点包括 1T 总参数 / 32B 激活参数的 MoE 设计 、MuonClip 优化器，以及围绕真实与合成环境交互的后训练流程。它在软件工程和 agent 任务上的强调，很能代表 2025 年下半年的研究方向。( $arXiv$ $3$ )

4. Gemini 2.5: Pushing the Frontier with Advanced Reasoning

Gemini 2.5 的代表性在于：它把 thinking model、coding、multimodal understanding、长视频处理 放到同一代模型里。官方报告明确写到 Gemini 2.5 Pro 可处理最长 3 小时视频，这说明 2025 年前沿模型已经不再把"推理"和"多模态"分开看。( $arXiv$ $4$ )

5. EXAONE 4.0

这篇论文很值得读，因为它提出了一个 2025 年很典型的产品化思路：在同一模型体系里统一 non-reasoning mode 与 reasoning mode ，同时加入 agentic tool use。相比只追 benchmark，它更接近"如何把 reasoning 模型变成可用系统"的方向。( $arXiv$ $5$ )

6. Phi-4-reasoning

这是 2025 年"小而强"路线的代表。它的价值不在参数规模，而在于说明：14B 级别模型通过精心构造的 reasoning SFT 数据和短程 outcome-based RL，也能逼近更大推理模型的表现。这篇很适合和 DeepSeek-R1 对照着读。( $arXiv$ $6$ )

二、多模态主线

7. Qwen2.5-VL Technical Report

这是 2025 年前期最值得读的 VLM 论文之一。它的重点非常明确：视觉识别、精确定位、文档解析、长视频理解。如果你关心 OCR、图表、GUI、长视频或视觉 grounding，它比很多泛泛的"看图说话"模型更有工程参考价值。( $arXiv$ $7$ )

8. Kimi-VL Technical Report

Kimi-VL 的代表性在于它把 MoE VLM、长上下文、多模态推理、agent 能力 放到一个高效开源体系里，而且语言解码部分只激活 2.8B 参数。它很适合和 Qwen2.5-VL 一起看：前者更像"强通用 VLM"，后者更像"高效 agent 型 VLM"。( $arXiv$ $8$ )

9. Qwen3-Omni Technical Report

如果你想看 2025 年"omni model"的代表作，这篇很关键。论文主张一个单模型同时覆盖 text、image、audio、video ，并强调不牺牲单模态能力。它体现的是 2025 年后期多模态研究的一个核心目标：从 VLM 走向真正的 omni-modal foundation model。( $arXiv$ $9$ )

三、评测与"新经典基准"主线

10. Humanity's Last Exam (HLE)

这不是模型论文，而是 2025 年最重要的新 benchmark 之一。它提出的背景很直接：传统 benchmark 被刷得太快，已经很难区分最强模型，所以 HLE 试图做一个覆盖数学、人文、自然科学等领域的 高难度、多模态、闭卷式前沿知识测试。2025 年很多前沿模型报告都会引用它。( $arXiv$ $10$ )

11. ARC-AGI-2

如果说 HLE 更偏"高知识密度难题"，ARC-AGI-2 更偏"抽象推理与流体智能"。它延续 ARC-AGI 的思路，但把任务做得更细、更难，并给出大量 human baseline。2025 年它几乎成了讨论"模型到底有没有更通用推理能力"时绕不开的 benchmark。( $arXiv$ $11$ )

四、压缩成"最推荐先读的 6 篇"

最核心的 6 篇，建议按这条顺序：
DeepSeek-R1 → Qwen3 → Kimi K2 → Qwen2.5-VL → Humanity's Last Exam → ARC-AGI-2 。

这 6 篇基本能把 2025 年最重要的主题串起来：推理 RL、混合 thinking/non-thinking、agentic intelligence、强 VLM、以及新一代高难 benchmark。( $arXiv$ $1$ )

五、理解 2025 年的"经典性"

2025 年"经典论文"的共同特征不是再造一个全新骨架，而是三件事：
让模型更会推理，让模型更会调用工具/处理真实环境，让评测真正重新变难。 这也是为什么 2025 年最有代表性的论文，往往同时围绕 reasoning、agent、multimodal、benchmark 四个关键词展开。( $arXiv$ $1$ )

参考链接：

$1$ : https://arxiv.org/abs/2501.12948?utm_source=chatgpt.com "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs ..."

$2$ : https://arxiv.org/abs/2505.09388?utm_source=chatgpt.com " $2505.09388$ Qwen3 Technical Report"

$3$ : https://arxiv.org/abs/2507.20534?utm_source=chatgpt.com "Kimi K2: Open Agentic Intelligence"

$4$ : https://arxiv.org/abs/2507.06261?utm_source=chatgpt.com "Gemini 2.5: Pushing the Frontier with Advanced Reasoning ..."

$5$ : https://arxiv.org/abs/2507.11407?utm_source=chatgpt.com "EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes"

$6$ : https://arxiv.org/abs/2504.21318?utm_source=chatgpt.com "Phi-4-reasoning Technical Report"

$7$ : https://arxiv.org/abs/2502.13923?utm_source=chatgpt.com " $2502.13923$ Qwen2.5-VL Technical Report"

$8$ : https://arxiv.org/abs/2504.07491?utm_source=chatgpt.com " $2504.07491$ Kimi-VL Technical Report"

$9$ : https://arxiv.org/abs/2509.17765?utm_source=chatgpt.com " $2509.17765$ Qwen3-Omni Technical Report"

$10$ : https://arxiv.org/abs/2501.14249?utm_source=chatgpt.com "Humanity's Last Exam"

$11$ : https://arxiv.org/abs/2505.11831?utm_source=chatgpt.com "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems"