AGI-Eval 2025年度报告精选 | 以数据为尺，度量智能边界

技术浪潮奔涌不息，我们即将与充满变革的 2025 年挥手作别。感谢这一路上，每一位关注者对 AGI-Eval 的信任与支持。

今年，AGI-Eval 作为独立的第三方评测机构，在持续的追踪与探索中，产出了大量严谨、客观、深度的评测报告。我们从中精选了 10 篇最具代表性的年度报告，内容涵盖深度评测报告、多模型横向比拼、前沿学术分析、大模型实测等多个方向。值得一提的是，AGI-Eval 今年在推动建立更科学、更全面的评测体系上取得了关键进展，并与多个学术团队合作，托管了众多重要评测基准，期望能持续推动 AI 评测标准的透明化与规范化。

希望这些凝结了一线评测与深度分析的内容，能为大家带来客观的参考和深刻的启发，陪伴每一位 AI 领域的探索者，在技术演进的道路上看得更清、走得更远。愿我们在新的一年里，继续以数据为尺，以客观为镜，共同见证并度量通往 AGI 的每一步进展。

AGI-Eval 为您在文末备有一份薄礼，期待您的深度思考与参与。2026，期待继续与您一同求索！

01 | 第一手实测GPT-4o文生图能力！最权威报告输出

发布日期 ：2025年3月27日
评测核心 ：3月，在 GPT-4o 发布并升级图像生成能力后，AGI-Eval 立即启动了专项评测。通过对图文一致性、图像质量、常识推理和结构化生成（如图表、文字）等维度的系统性打分，报告最终得出结论：GPT-4o 的文生图能力全面登顶，综合得分（4.41分）显著高于第二名 Dreamina 2.1（4.01分）。评测还揭示，作为原生多模态模型，GPT-4o 在字符生成和图表绘制等结构化任务上表现尤为突出，解决了传统文生图模型的普遍痛点。（阅读原文）

02 | 全球实时语音交互AI产品大比拼：阶跃AI和豆包问鼎,超越GPT-4o

发布日期 ：2025年6月23日
评测核心 ：6月，AGI-Eval 组织了一场覆盖 8 大主流产品的实时语音交互横评，旨在探究 AI 语音离真人对话的距离。通过对 1624 条真实语音对话数据进行 480 名真人用户的双盲评测，报告结果显示，国产 AI 表现亮眼，阶跃 AI（0.64分）与豆包（0.63分）在综合流畅度上超越了 GPT-4o（0.60分），位列第一梯队。评测还深度剖析了各家产品在交互拟人度（豆包领先）、记忆连贯性（阶跃更稳）和场景适应性上的差异，为行业发展提供了宝贵的数据洞察。（阅读原文）

03 | DeepSeek三大类型模型全面评测：通用及推理模型领跑，多模态位居第三梯队

发布日期 ：2025年2月18日
评测核心 ：2月，AGI-Eval 发布了针对 DeepSeek 系列模型的深度评测报告。报告通过自建及公开数据集的综合测试，首次为业界清晰标定了其能力水位。结论指出：其通用模型（DeepSeek-V3-Chat）与推理模型（DeepSeek-R1）均跻身第一梯队，后者在大学及竞赛数学等高难度推理上甚至超越了 o1；但其多模态模型 Janus Pro 则位于第三梯队，在图像文本一致性维度上弱于 DALL-E3 与 SD3-Medium。这份报告为行业提供了关于 DeepSeek 系列强项与短板的权威、量化的参考基准。（阅读全文）

04 | Manus、Genspark、Coze空间、Minimax横评：谁是最强Agent？

发布日期 ：2025年6月11日
评测核心 ：6月，在 Agent 概念大热但能力参差不齐的背景下，AGI-Eval 发布了首轮主流 Agent 产品权威横评。评测围绕四大核心任务场景，对 Manus、Coze、Genspark、Minimax 进行同台实测。结论指出，当前所有 Agent 均未达到"完全可用"状态（平均分 1.23~2.20，满分 4 分），行业仍处早期。Manus（高投入模式）以 2.20 分的平均分领跑，在通用性和稳定性上表现最优； Minimax 则在信息检索与软件开发等特定场景展现出优势。该报告首次系统性地揭示了各 Agent 的能力边界与真实应用差距。（阅读原文）

05 | 深度拆解Qwen3：刷榜之外，构建全面评测新体系

发布日期 ：2025年5月10日
评测核心 ：5月，针对 Qwen3 模型的发布，AGI-Eval 发布了一份超越榜单分数的深度拆解报告。评测结果显示，Qwen3-235B-A22B 的 Thinking 模式虽表现不俗（客观准确率0.7469），但与推理标杆 DeepSeek-R1（0.7660）仍有差距，且在代码、零售等真实应用场景评测中，落后于自家前代模型 QwQ-32B 约 3.4-3.6 个百分点。报告借此契机，深刻反思了行业内普遍存在的"刷榜"现象，并强调了构建全面、科学、以真实应用为导向的评测新体系的紧迫性与必要性。（阅读原文）

06 | DeepSeek V3-0324抢先评测！最全报告输出

发布日期：2025年3月26日

评测核心：3月，在外界期待DeepSeek-R2之际，官方低调推出了V3-0324版本。AGI-Eval第一时间实测发现，该版本综合能力显著提升，水位已逼近Claude 3.7。特别是在衣食住行等生活场景中，其表现仅次于自家的R1，优于Claude 3.5。然而评测也指出了新问题：模型在代码等任务上出现"过度推理"现象，且由于步骤拆解更细致，导致输出长度增加，进而带来了使用成本的上升。这份报告客观呈现了模型迭代中的得与失。（阅读原文）

07 | 全球文生图格局生变：Seedream 4.0问鼎，三大核心突破深度解读

发布日期 ：2025年9月26日
评测核心 ：9月，文生图赛道迎来黑马。AGI-Eval对登顶SOTA的Seedream 4.0进行了深度解读。报告不仅验证了其性能，更通过大量案例剖析了其在"精细化控制"、"物理真实感"与"艺术审美"三大维度的技术突破。评测显示，该模型有效解决了复杂构图理解差、手部生成崩坏等行业顽疾。这篇评测揭示了文生图技术正从单纯的"画得像"向"画得准"与"画得美"进阶，为创作者提供了新的工具标杆。（阅读全文）

08 | AI巅峰对决：GPT、Qwen领衔五子棋与德扑，Claude竟未进前三？

发布日期 ：2025年12月22日
评测核心 ：12月，AGI-Eval 联合上海交大、美团推出了一个创新的AI竞技场------ CATArena，旨在通过策略博弈评估 AI 的核心能力。在首届五子棋与德州扑克锦标赛中，评测结果显示，国产模型 Qwen 3 Coder 与海外模型 GPT-5 共同登顶，而以通用能力著称的 Claude 系列却未能进入前三。报告深度剖析了这一现象，指出 CATArena 衡量的并非单纯的单步推理，而是包含了策略编码、迭代学习、博弈泛化在内的、更接近实战的综合智能。这为 AI 评测提供了一个超越传统"考卷"模式的全新范式。（阅读原文）

09 | 全球文生视频AI模型排名洗牌：可灵2.5 Turbo vs Sora2，谁更懂你的想象？

发布日期 ：2025年11月4日
评测核心 ：7月，为解决当前视频评测基准停留在"识别物体"初级阶段的问题， AGI-Eval 宣布托管全新的 MMWorld Bench。该基准首次以"多学科+多维度推理"为核心，全方位丈量模型理解真实世界动态的能力。在对 14 个顶级模型的首轮测试中，最强的 GPT-4o 也仅取得 62.54% 的及格分，且在不同学科领域表现出巨大差异（商业 91.14% vs 艺术体育47.87%）。该报告揭示了 AI 在迈向"世界模型"过程中的核心瓶颈，如模态理解割裂、知识碎片化等。（阅读原文）

10 | AGI-Eval 评测框架开源，让每个人都能轻松开启评测

发布日期 ：2025年11月20日
评测核心 ：11月，AGI-Eval迈出了推动行业透明化的关键一步------正式开源内部评测框架。在产出大量权威报告后，我们将这一套经过实战检验的标准与工具无偿共享。该框架支持自定义数据集、多模型并行测试及自动化评分，旨在降低评测门槛，打破大厂垄断的"黑盒测试"。报告详细拆解了框架的部署流程与核心模块，赋能每一位开发者和研究人员构建属于自己的"AI数据标尺"，共同推动大模型生态向更开放、更严谨的方向演进。（阅读全文）

「互动有礼」

2025年，哪一篇AGI-Eval的报告对您启发最大？

2026年，您最期待我们评测哪个方向、哪个模型，或者有什么想对我们说的话？

欢迎在评论区留下您的真知灼见，我们将会选择留言最深刻、最专业的10 位朋友

为每人送上一份 AGI-Eval 专属礼品。

---------- END ----------