技术浪潮奔涌不息,我们即将与充满变革的 2025 年挥手作别。感谢这一路上,每一位关注者对 AGI-Eval 的信任与支持。
今年,AGI-Eval 作为独立的第三方评测机构,在持续的追踪与探索中,产出了大量严谨、客观、深度的评测报告。我们从中精选了 10 篇最具代表性的年度报告,内容涵盖深度评测报告、多模型横向比拼、前沿学术分析、大模型实测等多个方向。值得一提的是,AGI-Eval 今年在推动建立更科学、更全面的评测体系上取得了关键进展,并与多个学术团队合作,托管了众多重要评测基准,期望能持续推动 AI 评测标准的透明化与规范化。
希望这些凝结了一线评测与深度分析的内容,能为大家带来客观的参考和深刻的启发,陪伴每一位 AI 领域的探索者,在技术演进的道路上看得更清、走得更远。愿我们在新的一年里,继续以数据为尺,以客观为镜,共同见证并度量通往 AGI 的每一步进展。
AGI-Eval 为您在文末备有一份薄礼,期待您的深度思考与参与。2026,期待继续与您一同求索!
01 | 第一手实测GPT-4o文生图能力!最权威报告输出

发布日期 :2025年3月27日
评测核心 :3月,在 GPT-4o 发布并升级图像生成能力后,AGI-Eval 立即启动了专项评测。通过对图文一致性、图像质量、常识推理和结构化生成(如图表、文字)等维度的系统性打分,报告最终得出结论:GPT-4o 的文生图能力全面登顶,综合得分(4.41分)显著高于第二名 Dreamina 2.1(4.01分)。评测还揭示,作为原生多模态模型,GPT-4o 在字符生成和图表绘制等结构化任务上表现尤为突出,解决了传统文生图模型的普遍痛点。(阅读原文)
02 | 全球实时语音交互AI产品大比拼:阶跃AI和豆包问鼎,超越GPT-4o

发布日期 :2025年6月23日
评测核心 :6月,AGI-Eval 组织了一场覆盖 8 大主流产品的实时语音交互横评,旨在探究 AI 语音离真人对话的距离。通过对 1624 条真实语音对话数据进行 480 名真人用户的双盲评测,报告结果显示,国产 AI 表现亮眼,阶跃 AI(0.64分)与豆包(0.63分)在综合流畅度上超越了 GPT-4o(0.60分),位列第一梯队。评测还深度剖析了各家产品在交互拟人度(豆包领先)、记忆连贯性(阶跃更稳)和场景适应性上的差异,为行业发展提供了宝贵的数据洞察。(阅读原文)
03 | DeepSeek三大类型模型全面评测:通用及推理模型领跑,多模态位居第三梯队

发布日期 :2025年2月18日
评测核心 :2月,AGI-Eval 发布了针对 DeepSeek 系列模型的深度评测报告。报告通过自建及公开数据集的综合测试,首次为业界清晰标定了其能力水位。结论指出:其通用模型(DeepSeek-V3-Chat)与推理模型(DeepSeek-R1)均跻身第一梯队,后者在大学及竞赛数学等高难度推理上甚至超越了 o1;但其多模态模型 Janus Pro 则位于第三梯队,在图像文本一致性维度上弱于 DALL-E3 与 SD3-Medium。这份报告为行业提供了关于 DeepSeek 系列强项与短板的权威、量化的参考基准。(阅读全文)
04 | Manus、Genspark、Coze空间、Minimax横评:谁是最强Agent?

发布日期 :2025年6月11日
评测核心 :6月,在 Agent 概念大热但能力参差不齐的背景下,AGI-Eval 发布了首轮主流 Agent 产品权威横评。评测围绕四大核心任务场景,对 Manus、Coze、Genspark、Minimax 进行同台实测。结论指出,当前所有 Agent 均未达到"完全可用"状态(平均分 1.23~2.20,满分 4 分),行业仍处早期。Manus(高投入模式)以 2.20 分的平均分领跑,在通用性和稳定性上表现最优; Minimax 则在信息检索与软件开发等特定场景展现出优势。该报告首次系统性地揭示了各 Agent 的能力边界与真实应用差距。(阅读原文)
05 | 深度拆解Qwen3:刷榜之外,构建全面评测新体系

发布日期 :2025年5月10日
评测核心 :5月,针对 Qwen3 模型的发布,AGI-Eval 发布了一份超越榜单分数的深度拆解报告。评测结果显示,Qwen3-235B-A22B 的 Thinking 模式虽表现不俗(客观准确率0.7469),但与推理标杆 DeepSeek-R1(0.7660)仍有差距,且在代码、零售等真实应用场景评测中,落后于自家前代模型 QwQ-32B 约 3.4-3.6 个百分点。报告借此契机,深刻反思了行业内普遍存在的"刷榜"现象,并强调了构建全面、科学、以真实应用为导向的评测新体系的紧迫性与必要性。(阅读原文)
06 | DeepSeek V3-0324抢先评测!最全报告输出

发布日期:2025年3月26日
评测核心:3月,在外界期待DeepSeek-R2之际,官方低调推出了V3-0324版本。AGI-Eval第一时间实测发现,该版本综合能力显著提升,水位已逼近Claude 3.7。特别是在衣食住行等生活场景中,其表现仅次于自家的R1,优于Claude 3.5。然而评测也指出了新问题:模型在代码等任务上出现"过度推理"现象,且由于步骤拆解更细致,导致输出长度增加,进而带来了使用成本的上升。这份报告客观呈现了模型迭代中的得与失。(阅读原文)
07 | 全球文生图格局生变:Seedream 4.0问鼎,三大核心突破深度解读

发布日期 :2025年9月26日
评测核心 :9月,文生图赛道迎来黑马。AGI-Eval对登顶SOTA的Seedream 4.0进行了深度解读。报告不仅验证了其性能,更通过大量案例剖析了其在"精细化控制"、"物理真实感"与"艺术审美"三大维度的技术突破。评测显示,该模型有效解决了复杂构图理解差、手部生成崩坏等行业顽疾。这篇评测揭示了文生图技术正从单纯的"画得像"向"画得准"与"画得美"进阶,为创作者提供了新的工具标杆。(阅读全文)
08 | AI巅峰对决:GPT、Qwen领衔五子棋与德扑,Claude竟未进前三?

发布日期 :2025年12月22日
评测核心 :12月,AGI-Eval 联合上海交大、美团推出了一个创新的AI竞技场------ CATArena,旨在通过策略博弈 评估 AI 的核心能力。在首届五子棋与德州扑克锦标赛中,评测结果显示,国产模型 Qwen 3 Coder 与海外模型 GPT-5 共同登顶,而以通用能力著称的 Claude 系列却未能进入前三。报告深度剖析了这一现象,指出 CATArena 衡量的并非单纯的单步推理,而是包含了策略编码、迭代学习、博弈泛化在内的、更接近实战的综合智能。这为 AI 评测提供了一个超越传统"考卷"模式的全新范式。(阅读原文)
09 | 全球文生视频AI模型排名洗牌:可灵2.5 Turbo vs Sora2,谁更懂你的想象?

发布日期 :2025年11月4日
评测核心 :7月,为解决当前视频评测基准停留在"识别物体"初级阶段的问题, AGI-Eval 宣布托管全新的 MMWorld Bench。该基准首次以"多学科+多维度推理"为核心,全方位丈量模型理解真实世界动态的能力。在对 14 个顶级模型的首轮测试中,最强的 GPT-4o 也仅取得 62.54% 的及格分,且在不同学科领域表现出巨大差异(商业 91.14% vs 艺术体育47.87%)。该报告揭示了 AI 在迈向"世界模型"过程中的核心瓶颈,如模态理解割裂、知识碎片化等。(阅读原文)
10 | AGI-Eval 评测框架开源,让每个人都能轻松开启评测

发布日期 :2025年11月20日
评测核心 :11月,AGI-Eval迈出了推动行业透明化的关键一步------正式开源内部评测框架。在产出大量权威报告后,我们将这一套经过实战检验的标准与工具无偿共享。该框架支持自定义数据集、多模型并行测试及自动化评分,旨在降低评测门槛,打破大厂垄断的"黑盒测试"。报告详细拆解了框架的部署流程与核心模块,赋能每一位开发者和研究人员构建属于自己的"AI数据标尺",共同推动大模型生态向更开放、更严谨的方向演进。(阅读全文)
「 互动有礼 」
2025年,哪一篇AGI-Eval的报告对您启发最大?
2026年,您最期待我们评测哪个方向、哪个模型,或者有什么想对我们说的话?
欢迎在评论区留下您的真知灼见,我们将会选择留言最深刻、最专业的10 位朋友
为每人送上一份 AGI-Eval 专属礼品。

---------- END ----------