2025年的大模型论文的经典性

2025 年最值得优先读的一批,基本集中在三条主线:推理与 agentic 能力、多模态统一建模、以及新一代高难度评测。(arXiv1)

一、推理与 Agentic 主线

1. DeepSeek-R1

这是 2025 年最有代表性的"推理模型"论文之一。它的关键点不是单纯把模型做大,而是强调用 纯 RL 路线激发推理能力,并展示了 R1-Zero / R1 这类 reasoning post-training 路线的可行性。读这篇的价值在于,它几乎定义了 2025 年"长思维链 + 强化学习推理模型"的讨论起点。(arXiv1)

2. Qwen3 Technical Report

Qwen3 很值得读,因为它代表了 2025 年开源 LLM 的一个重要方向:同一模型同时支持 thinking mode 和 non-thinking mode,并且覆盖 dense 与 MoE 两条路线。它不只是性能报告,更像是 2025 年"实用型开源基础模型"的系统总结。(arXiv2)

3. Kimi K2: Open Agentic Intelligence

这篇很有代表性,因为它把焦点从"纯推理"推进到 agentic intelligence 。论文的亮点包括 1T 总参数 / 32B 激活参数的 MoE 设计MuonClip 优化器,以及围绕真实与合成环境交互的后训练流程。它在软件工程和 agent 任务上的强调,很能代表 2025 年下半年的研究方向。(arXiv3)

4. Gemini 2.5: Pushing the Frontier with Advanced Reasoning

Gemini 2.5 的代表性在于:它把 thinking model、coding、multimodal understanding、长视频处理 放到同一代模型里。官方报告明确写到 Gemini 2.5 Pro 可处理最长 3 小时视频,这说明 2025 年前沿模型已经不再把"推理"和"多模态"分开看。(arXiv4)

5. EXAONE 4.0

这篇论文很值得读,因为它提出了一个 2025 年很典型的产品化思路:在同一模型体系里统一 non-reasoning mode 与 reasoning mode ,同时加入 agentic tool use。相比只追 benchmark,它更接近"如何把 reasoning 模型变成可用系统"的方向。(arXiv5)

6. Phi-4-reasoning

这是 2025 年"小而强"路线的代表。它的价值不在参数规模,而在于说明:14B 级别模型通过精心构造的 reasoning SFT 数据和短程 outcome-based RL,也能逼近更大推理模型的表现。这篇很适合和 DeepSeek-R1 对照着读。(arXiv6)

二、多模态主线

7. Qwen2.5-VL Technical Report

这是 2025 年前期最值得读的 VLM 论文之一。它的重点非常明确:视觉识别、精确定位、文档解析、长视频理解。如果你关心 OCR、图表、GUI、长视频或视觉 grounding,它比很多泛泛的"看图说话"模型更有工程参考价值。(arXiv7)

8. Kimi-VL Technical Report

Kimi-VL 的代表性在于它把 MoE VLM、长上下文、多模态推理、agent 能力 放到一个高效开源体系里,而且语言解码部分只激活 2.8B 参数。它很适合和 Qwen2.5-VL 一起看:前者更像"强通用 VLM",后者更像"高效 agent 型 VLM"。(arXiv8)

9. Qwen3-Omni Technical Report

如果你想看 2025 年"omni model"的代表作,这篇很关键。论文主张一个单模型同时覆盖 text、image、audio、video ,并强调不牺牲单模态能力。它体现的是 2025 年后期多模态研究的一个核心目标:从 VLM 走向真正的 omni-modal foundation model。(arXiv9)

三、评测与"新经典基准"主线

10. Humanity's Last Exam (HLE)

这不是模型论文,而是 2025 年最重要的新 benchmark 之一。它提出的背景很直接:传统 benchmark 被刷得太快,已经很难区分最强模型,所以 HLE 试图做一个覆盖数学、人文、自然科学等领域的 高难度、多模态、闭卷式前沿知识测试。2025 年很多前沿模型报告都会引用它。(arXiv10)

11. ARC-AGI-2

如果说 HLE 更偏"高知识密度难题",ARC-AGI-2 更偏"抽象推理与流体智能"。它延续 ARC-AGI 的思路,但把任务做得更细、更难,并给出大量 human baseline。2025 年它几乎成了讨论"模型到底有没有更通用推理能力"时绕不开的 benchmark。(arXiv11)

四、压缩成"最推荐先读的 6 篇"

最核心的 6 篇,建议按这条顺序:
DeepSeek-R1 → Qwen3 → Kimi K2 → Qwen2.5-VL → Humanity's Last Exam → ARC-AGI-2

这 6 篇基本能把 2025 年最重要的主题串起来:推理 RL、混合 thinking/non-thinking、agentic intelligence、强 VLM、以及新一代高难 benchmark。(arXiv1)

五、理解 2025 年的"经典性"

2025 年"经典论文"的共同特征不是再造一个全新骨架,而是三件事:
让模型更会推理,让模型更会调用工具/处理真实环境,让评测真正重新变难。 这也是为什么 2025 年最有代表性的论文,往往同时围绕 reasoning、agent、multimodal、benchmark 四个关键词展开。(arXiv1)

参考链接:

1: https://arxiv.org/abs/2501.12948?utm_source=chatgpt.com "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs ..."

2: https://arxiv.org/abs/2505.09388?utm_source=chatgpt.com "2505.09388 Qwen3 Technical Report"

3: https://arxiv.org/abs/2507.20534?utm_source=chatgpt.com "Kimi K2: Open Agentic Intelligence"

4: https://arxiv.org/abs/2507.06261?utm_source=chatgpt.com "Gemini 2.5: Pushing the Frontier with Advanced Reasoning ..."

5: https://arxiv.org/abs/2507.11407?utm_source=chatgpt.com "EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes"

6: https://arxiv.org/abs/2504.21318?utm_source=chatgpt.com "Phi-4-reasoning Technical Report"

7: https://arxiv.org/abs/2502.13923?utm_source=chatgpt.com "2502.13923 Qwen2.5-VL Technical Report"

8: https://arxiv.org/abs/2504.07491?utm_source=chatgpt.com "2504.07491 Kimi-VL Technical Report"

9: https://arxiv.org/abs/2509.17765?utm_source=chatgpt.com "2509.17765 Qwen3-Omni Technical Report"

10: https://arxiv.org/abs/2501.14249?utm_source=chatgpt.com "Humanity's Last Exam"

11: https://arxiv.org/abs/2505.11831?utm_source=chatgpt.com "ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems"

相关推荐
冬奇Lab6 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab6 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm
IT_陈寒8 小时前
JavaScript的闭包把我坑惨了,说好的内存会自动回收呢?
前端·人工智能·后端
jooloo12 小时前
Codex 间歇性 400 之谜:一条对话里,它为什么有时候用 chat/completions,有时候切到 responses?
人工智能
用户51914958484512 小时前
OpenSSL PKCS#12 PBMAC1 堆栈缓冲区溢出漏洞 (CVE-2025-11187) 分析与验证
人工智能·aigc
用户51914958484514 小时前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户0183493016914 小时前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
这token有力气17 小时前
Function Calling 格式漂移
人工智能