每日 AI 研究简报 · 2026-03-25

（本文借助 AI 大模型及工具辅助整理）

一句话总结：今日 MIT 发布可穿戴机械手控制技术、英伟达 CEO 黄仁勋宣布"已实现 AGI"、OpenAI 洽购核聚变能源、快手可灵 AI 年化收入突破 3 亿美元------AI 正在从实验室走向产业落地。

🌊 AI 动态与趋势

今日 AI 领域呈现出几个值得关注的趋势：

AGI 之争从技术辩论走向话语权争夺。英伟达 CEO 黄仁勋公开宣称"已实现 AGI"，但业内对 AGI 定义仍未达成共识。这背后是算力巨头对 AI 发展叙事权的争夺------谁能定义 AGI，谁就能主导下一轮投资方向。

AI 能源需求倒逼能源技术革新。OpenAI 正在洽购核聚变能源公司 Helion 的电力，Sam Altman 已辞去 Helion 董事长职务以规避利益冲突。AI 的能源饥渴正在推动清洁能源技术的商业化进程。

具身智能从实验室走向消费级产品。MIT 发布的可穿戴机械手控制手环，让用户通过自然手部动作就能控制机器人弹钢琴、打篮球。这标志着具身智能正在从工业场景向消费电子渗透。

📰 AI 今日看点

🔥 AI 大事件

英伟达 CEO 宣布"已实现 AGI"

黄仁勋在公开场合表示"我们已实现 AGI（通用人工智能）"，但业内对此说法分歧巨大。批评者指出，在 AGI 定义尚未达成共识的情况下，这种声明更像是营销话术而非科学结论。

来源：The Verge

OpenAI 洽购核聚变能源，Sam Altman 辞去相关职务

OpenAI 正在与核聚变初创公司 Helion Energy 洽谈电力采购协议。因利益冲突，Sam Altman 已辞去 Helion 董事长职务。AI 的能源需求正在推动核聚变技术加速落地。

来源：Reuters

Anthropic 与美国国防部对簿公堂

Anthropic 正在起诉美国国防部，要求撤销将其列为"军事供应链风险"的决定。案件正在审理中，判决结果可能影响 AI 公司与政府合作的未来走向。

来源：The Verge

🛠️ AI 应用前线

MIT 发布可穿戴机械手控制器

MIT 研究团队发布了一款手环设备，用户只需移动自己的手和手指，就能控制机器人弹钢琴、打篮球，或在虚拟环境中操控物体。这项技术有望帮助残障人士恢复手部功能，也可用于远程手术和危险环境作业。

来源：MIT News

快手可灵 AI 年化收入突破 3 亿美元

快手 CEO 程一笑透露，截至 2026 年 1 月，可灵 AI 的年化收入运行率（ARR）已超过 3 亿美元，预计 2026 年收入将同比翻倍以上增长。这标志着中国 AI 视频生成产品已实现规模化商业化。

来源：36氪

WPS AI 国内月活突破 8000 万

金山办公 2025 年财报显示，WPS AI 国内月活用户达 8013 万，同比增长 307%。WPS 365 收入 7.2 亿元，同比增长 65%。AI 办公正在成为国内用户的日常工具。

来源：36氪

📊 数据速递

3 亿美元 --- 快手可灵 AI 年化收入运行率，中国 AI 视频生成产品商业化里程碑（来源：36氪）
8013 万 --- WPS AI 国内月活用户数，同比增长 307%（来源：金山办公财报）
6000+ 家 --- 中国 AI 企业数量，核心产业规模突破 1.2 万亿元（来源：央视网）
100 亿次 --- 国产开源大模型全球累计下载量（来源：新华网）
260 亿元 --- 快手 2026 年计划 Capex 投入，新增 110 亿元主要用于 AI 算力（来源：36氪）

📊 今日概览

维度	数据
📅 日期	2026-03-25
🔬 ArXiv 精选论文	9 篇
🚀 GitHub 趋势项目	15 个
📰 新闻事件	6 条
🏷️ 覆盖领域	大模型 / AI Agent / 多模态 / 具身智能
📈 GitHub 总星数（Top 15）	~1,491,899

🔬 ArXiv 今日精选论文

🤖 大模型

① Contextual (In)variance: The Case of Gender Inference （英文原文）

• 作者 : Miguel Rios, Atharva Kulkarni, Dennis Wegner, Iacer Calixto

• 链接 : arXiv:2603.23489

• 摘要 : 揭示 LLM 在性别推断任务中的"上下文不变性失效"问题------同一问题换个说法，模型给出的性别推断结果会大幅变化。在 19--52% 的案例中出现系统性偏差，对高风险场景的 AI 部署提出严峻警告。

⭐ 值得深读

② SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning （英文原文）

• 作者 : Haoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo

• 链接 : arXiv:2603.23483

• 摘要: 提出 SpecEyes 框架，用轻量级"投机规划器"预测 Agentic MLLM 的执行轨迹，通过认知门控机制提前终止昂贵的工具调用链。在 V* Bench 等基准上实现 1.1--3.35× 加速，同时准确率提升最高 +6.7%。

③ Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies （英文原文）

• 作者 : Hanzhong Zhang, Siyang Song, Jindong Wang

• 链接 : arXiv:2603.23406

• 摘要: 将人类研究者嵌入多智能体社区，通过受控话语干预追踪集体认知演化。发现 Agent 会形成内生立场并覆盖预设身份，先进模型存在 40% 的"虚伪性"行为（表面低信任却改变立场）。

🐙 AI Agent / 具身智能

① Code Review Agent Benchmark （英文原文）

• 作者 : Yuntong Zhang, Zhiyuan Pan, Imam Nur Bani Yusuf, Haifeng Ruan, Ridwan Shariffdeen, Abhik Roychoudhury

• 链接 : arXiv:2603.23448

• 摘要 : 发布 c-CRAB 代码审查 Agent 基准，系统评估 PR-Agent、Devin、Claude Code、Codex 等主流工具。现有 Agent 合计仅能解决约 40% 的任务，且审查视角与人类差异显著。

⭐ 值得深读

② Designing Agentic AI-Based Screening for Portfolio Investment （英文原文）

• 作者 : Mehmet Caner, Agostino Capponi, Nathan Sun, Jonathan Y. Tan

• 链接 : arXiv:2603.23300

• 摘要: 提出三层 Agentic AI 投资组合管理平台：LLM 基本面筛选 Agent + 情绪分析 Agent 协同生成买卖信号，再结合高维精度矩阵估计确定最优权重。在 S&P 500（2020--2024）数据上夏普比率优于传统方法。

③ VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs （英文原文）

• 作者 : Haoran Yuan, Weigang Yi, Zhenyu Zhang 等

• 链接 : arXiv:2603.23481

• 摘要 : 提出 VTAM，将触觉感知作为补充信号融入视频动作模型。在接触密集型操作任务中平均成功率达 90%，在薯片抓取等高精度力感知场景中比 π0.5 基线高出 80%。

⭐ 值得深读

🎨 多模态

① MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage （英文原文）

• 作者 : Ufaq Khan, Umair Nawaz, L D M S S Teja, Numaan Saeed, Muhammad Bilal, Yutong Xie, Mohammad Yaqub, Muhammad Haris Khan

• 链接 : arXiv:2603.23501

• 摘要 : 发布 MedObvious 基准（1880 个任务），测试 VLM 的医学输入验证能力。评测 17 个 VLM 发现：模型在正常输入上会幻觉出异常，医学 VLM 的预诊断验证能力仍未解决。

⭐ 值得深读

② VISion On Request (VISOR): Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions （英文原文）

• 作者 : Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos

• 链接 : arXiv:2603.23495

• 摘要: CVPR 2026 录用。提出 VISOR，通过稀疏化图文 token 交互而非压缩视觉 token 来降低推理成本。动态分配视觉计算预算，在细粒度理解任务上表现突出。

③ Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning （英文原文）

• 作者 : Jiacheng Hua, Yishu Yin, Yuhang Wu, Tai Wang, Yifei Huang, Miao Liu

• 链接 : arXiv:2603.23404

• 摘要: 提出 TRACE 提示方法，引导 MLLM 生成基于文本的 3D 环境表示作为中间推理轨迹。在 VSI-Bench 和 OST-Bench 上跨多种 MLLM 骨干网络均取得显著提升。

🚀 GitHub AI 趋势日榜 Top 15

今日趋势榜以 AI Agent 框架和 LLM 推理工具为主力，OpenClaw 以 335k⭐ 领跑，AutoGPT、n8n 紧随其后。值得关注的是 browser-use 和 RAGFlow 的强势表现，反映出"浏览器自动化 Agent"和"企业级 RAG+Agent 融合"是当前最受关注的工程方向。

#1 openclaw/openclaw

⭐ 335.4k · TypeScript
你的个人 AI 助手，支持任何操作系统和平台

#2 Significant-Gravitas/AutoGPT

⭐ 182.8k · Python
面向所有人的可访问 AI 愿景，提供工具让你专注于真正重要的事情

#3 n8n-io/n8n

⭐ 181.0k · TypeScript
原生 AI 能力的工作流自动化平台，支持 400+ 集成

#4 ollama/ollama

⭐ 166.1k · Go
本地运行 Kimi-K2.5、GLM-5、DeepSeek、Qwen 等大模型

#5 langflow-ai/langflow

⭐ 146.2k · Python
构建和部署 AI Agent 与工作流的可视化工具

#6 langgenius/dify

⭐ 134.4k · TypeScript
生产级 Agent 工作流开发平台