Artificial Analysis 刚刚重磅发布《2025 年第三季度人工智能亮点》报告：中国仅落后美国几个月（附下载）

你好，我是杰哥。

Artificial Analysis 刚刚发布了重磅报告------《2025 年第三季度人工智能亮点 》。这份报告由全球领先的独立 AI 基准测试机构Artificial Analysis 出品，他们通过小时级 API 性能测试和数百万众包投票数据，为我们提供了AI领域的最新洞察。作为一家专注于工程和企业决策支持的公司，他们的平台 artificialanalysis.ai 已经被 OpenAI、Google 等前沿实验室和众多企业、媒体机构广泛信任。

这份报告聚焦 2025 年第三季度 AI 栈的全景，从硬件到模型再到应用，揭示了行业创新的加速节奏。报告指出， AI 模型越来越聪明，使用工具的能力更强，市场采用速度也前所未有地快。竞争格局激烈，没有明显的赢家，美国和中国实验室并驾齐驱 ，代理式AI体验正让工作效率飞跃。

行业全貌：投资热潮与垂直整合加剧

2025 年 Q3，AI 行业像一辆高速列车，继续全速前进。报告强调，创新遍布整个AI栈，从芯片到产品，没有停滞的迹象。相反，估值是否泡沫化是个有趣的话题，但进步绝对是实打实的。

首先看关键玩家 。美国巨头如OpenAI 、Google 、Anthropic 和新兴的xAI 主导了Intelligence Index （智能指数）前列，而中国实验室如DeepSeek 和Alibaba 紧随其后，仅落后几个月。报告用一张价值链地图展示了垂直整合程度：Google 最全面，从自家TPU 加速器到Gemini 应用，一条龙布局；OpenAI 和Microsoft 在云推理上强势；NVIDIA则牢牢把控硬件。

大科技公司继续跨模态玩转AI ，美国和中国企业覆盖语言、图像、视频和语音，而小玩家更专注细分领域，如Midjourney 专注图像生成。投资端，基础设施支出推动大厂资本开支飙升：Amazon 、Google 和Microsoft 在Q2 2025已超预期，xAI 计划采购30万张NVIDIA GPU 建Colossus 2数据中心，OpenAI 预计到2030年砸1500亿美元。芯片厂商如NVIDIA 、AMD 和Broadcom笑纳红利，营收和市值双双暴增。

报告总结了 5 大趋势：

1）竞争白热化，所有模态实验室数量激增；

2）代理能力成焦点，长时程工具使用和多步任务处理成主流；

3）图像编辑和视频生成主流化 ，Gemini 2.5 Flash (Nano Banana)的发布让Google iOS app 下载量暴涨；

4）开源模型发布速率创纪录 ，OpenAI 首推自 GPT-2 后的开源 gpt-oss-20B，与中国数十款开源模型竞争；

5）语音到语音模型成熟，生产级语音代理就绪。

语言模型：智能前沿洗牌，成本效率双降

进入核心------语言模型部分 。报告直言，GPT-4 级智能如今比原版便宜 100 倍，但新应用如深度研究查询，却需 10 倍计算。效率提升来自多管齐下：小模型+稀疏性减10倍计算；软件优化如 Flash Attention 省 3 倍；硬件新一代加速器降 3 成成本；但大模型需 5 倍计算，推理模型多 10 倍令牌，代理链式调用飙 20 倍请求。

前沿智能上，OpenAI 的GPT-5 (high)以 68 分重夺 Artificial Analysis Intelligence Index （v3.0，含10项评估如 MMLU-Pro 、GPQA Diamond ）头把交椅，领先 xAI 的 Grok 4 （65分）、Anthropic的Claude 4.5 Sonnet (Thinking) （63分）和 Google 的 Gemini 2.5 Pro （60分）。美国实验室霸榜前 7，中国如 Alibaba Qwen3 和 DeepSeek 紧咬不放。Meta 重组 AI 团队，自 4 月起无新模型。

采用率调查显示（N=591企业），OpenAI GPT 系列达 84%，xAI Grok 飙升 49 个百分点至 31%，Google Gemini 升 21% 至 67%，DeepSeek 暴增 53% 至 46%。Meta Llama 和 Mistral 略降，但整体开源选项活跃。

定价继续下探：Q3 新品如Grok 4 Fast 、GPT-5 nano 和 gpt-oss-20B 让 40+ 分模型推理价腰斩 50%。高智能阶层虽小幅调整，但整体趋势是"更聪明、更便宜"。开源前沿由 OpenAI gpt-oss-120B 领衔，逼近专有模型。

特别值得一提的是代理（Agents ）：报告定义为LLM 驱动的自治系统，能规划、用工具、执行任务。GPT-5 忠实执行指令，Grok 4 Fast 用强化学习优化工具调用，DeepSeek V3.1 Terminus 提升代理任务表现。Agentic Index 显示，Q3模型在编码、深度研究、电脑使用等领域突飞猛进。聊天app如ChatGPT 和Claude 已嵌入代理，支持文件编辑、搜索和Google Workspace集成，2025年从纯聊转向深层连接。

图像与视频：编辑主流，视频质量跃升

Q3 图像视频领域，进步向视频倾斜 。文本到图像增量式优化，Bytedance Seedream 4.0 Elo分超Imagen 4 Ultra 30分；开源如HunyuanImage 2.1 勉强跟上。图像编辑火热，Gemini 2.5 Flash (Nano Banana)和GPT Image 1 流行，多图输入成标配，Qwen Image Edit 2509开源版排第三。

视频生成，中国领先：Kling 2.5 Turbo 霸榜文本/图像到视频；Google Veo 3 和Luma Labs Ray 3 是西方前十仅两席。开源Alibaba Wan 2.2 A14B 排11/20。音频支持成亮点，OpenAI Sora 2 和Veo 3 原生生成带声视频，价更高（0.5/0.40美元/秒1080p），但采用率飙升。Runway Gen 3从Q1领头羊跌至23位，显示迭代之快。

玩家多样：大厂如ByteDance 、Alibaba 全覆盖，小专精如Midjourney 、Stability.ai在媒体生成发光。专有模型稳居前列，开源渐追。

语音与音乐：自然交互成熟，代理就绪

语音音乐Q3竞争激烈，推动自然语音代理落地 。**Speech to Text (STT)**准确率新高，Artificial Analysis AA-WER Index （三数据集，含口音/专业语/噪声）下，Google Chirp 2 最低11.6%错误率，NVIDIA Canary Qwen 开源13.2%紧随。OpenAI GPT Transcribe注重流畅性，但WER 21.3%。

Text to Speech (TTS)精细控制升级，OpenAI和MiniMax 旧模领先，ElevenLabs v3 加情绪/语气标签和SSML 。Speech to Speech (STS)爆发，Google Gemini 2.5 Native Audio Thinking 领衔推理，OpenAI GPT Realtime迭代快，开源Alibaba Qwen3 Omni Flash入局。传统管道（STT+LLM+TTS）延迟高，原生STS减复杂。

语音代理用例如客服/培训流行，平台分模型型（如Inworld ）、端到端（如Decagon ）和工具包（如Vapi ）。音乐生成新宠，Suno 、ElevenLabs推带人声器乐专有模型。

大厂如OpenAI 全栈，新公司如ElevenLabs创新驱动。

加速器：NVIDIA Blackwell 称王，分布式推理兴起

硬件端，推理需求暴增 ：推理模型、长上下文、代理让单查询计算翻倍，OpenAI 等"算力告急"致产品延期。NVIDIA Blackwell 8xB200系统普销，GB200 NVL72 架规模生产，B300/GB300 年底将至。2025年200K+ GB200 集群取代2024的100K H100。

系统性能超芯片成焦点，多节点规模化（NVLink /以太网）提升训练，分布式推理扩散：DeepSeek 开源、NVIDIA Dynamo 、SGLang项目推预填充/解码分离、专家并行，负载均衡优化。

NVIDIA 训推双霸，AMD 、Groq 等挑战者分化；Google 、Amazon 自研，初创如Cerebras 潜力大。Artificial Analysis System Load Test 显示，8xB200用TensorRT-LLM 系统吞吐3倍H200（1000并发下39K vs 13K token/s），单查询输出1.3-3.5倍快。

结语：AI 本土化时代，行动起来

AI 正从工具变伙伴，代理和多模态让生产力重塑。Artificial Analysis的独立基准，确保数据可靠。

更多洞察，关注【AI信息风向】公众号，一起拥抱AI未来！

关注公众号【AI信息风向】后，回复 666，即可获取这份 AI 行业报告。

AI 技术正以前所未有的速度发展，它将如何塑造我们的未来？让我们拭目以待。