(本文借助 AI 大模型及工具辅助整理)
一句话总结:今日 MIT 发布可穿戴机械手控制技术、英伟达 CEO 黄仁勋宣布"已实现 AGI"、OpenAI 洽购核聚变能源、快手可灵 AI 年化收入突破 3 亿美元------AI 正在从实验室走向产业落地。
🌊 AI 动态与趋势
今日 AI 领域呈现出几个值得关注的趋势:
AGI 之争从技术辩论走向话语权争夺。英伟达 CEO 黄仁勋公开宣称"已实现 AGI",但业内对 AGI 定义仍未达成共识。这背后是算力巨头对 AI 发展叙事权的争夺------谁能定义 AGI,谁就能主导下一轮投资方向。
AI 能源需求倒逼能源技术革新。OpenAI 正在洽购核聚变能源公司 Helion 的电力,Sam Altman 已辞去 Helion 董事长职务以规避利益冲突。AI 的能源饥渴正在推动清洁能源技术的商业化进程。
具身智能从实验室走向消费级产品。MIT 发布的可穿戴机械手控制手环,让用户通过自然手部动作就能控制机器人弹钢琴、打篮球。这标志着具身智能正在从工业场景向消费电子渗透。
📰 AI 今日看点
🔥 AI 大事件
英伟达 CEO 宣布"已实现 AGI"
黄仁勋在公开场合表示"我们已实现 AGI(通用人工智能)",但业内对此说法分歧巨大。批评者指出,在 AGI 定义尚未达成共识的情况下,这种声明更像是营销话术而非科学结论。
来源:The Verge
OpenAI 洽购核聚变能源,Sam Altman 辞去相关职务
OpenAI 正在与核聚变初创公司 Helion Energy 洽谈电力采购协议。因利益冲突,Sam Altman 已辞去 Helion 董事长职务。AI 的能源需求正在推动核聚变技术加速落地。
来源:Reuters
Anthropic 与美国国防部对簿公堂
Anthropic 正在起诉美国国防部,要求撤销将其列为"军事供应链风险"的决定。案件正在审理中,判决结果可能影响 AI 公司与政府合作的未来走向。
来源:The Verge
🛠️ AI 应用前线
MIT 发布可穿戴机械手控制器
MIT 研究团队发布了一款手环设备,用户只需移动自己的手和手指,就能控制机器人弹钢琴、打篮球,或在虚拟环境中操控物体。这项技术有望帮助残障人士恢复手部功能,也可用于远程手术和危险环境作业。
来源:MIT News
快手可灵 AI 年化收入突破 3 亿美元
快手 CEO 程一笑透露,截至 2026 年 1 月,可灵 AI 的年化收入运行率(ARR)已超过 3 亿美元,预计 2026 年收入将同比翻倍以上增长。这标志着中国 AI 视频生成产品已实现规模化商业化。
来源:36氪
WPS AI 国内月活突破 8000 万
金山办公 2025 年财报显示,WPS AI 国内月活用户达 8013 万,同比增长 307%。WPS 365 收入 7.2 亿元,同比增长 65%。AI 办公正在成为国内用户的日常工具。
来源:36氪
📊 数据速递
- 3 亿美元 --- 快手可灵 AI 年化收入运行率,中国 AI 视频生成产品商业化里程碑(来源:36氪)
- 8013 万 --- WPS AI 国内月活用户数,同比增长 307%(来源:金山办公财报)
- 6000+ 家 --- 中国 AI 企业数量,核心产业规模突破 1.2 万亿元(来源:央视网)
- 100 亿次 --- 国产开源大模型全球累计下载量(来源:新华网)
- 260 亿元 --- 快手 2026 年计划 Capex 投入,新增 110 亿元主要用于 AI 算力(来源:36氪)
📊 今日概览
| 维度 | 数据 |
|---|---|
| 📅 日期 | 2026-03-25 |
| 🔬 ArXiv 精选论文 | 9 篇 |
| 🚀 GitHub 趋势项目 | 15 个 |
| 📰 新闻事件 | 6 条 |
| 🏷️ 覆盖领域 | 大模型 / AI Agent / 多模态 / 具身智能 |
| 📈 GitHub 总星数(Top 15) | ~1,491,899 |
🔬 ArXiv 今日精选论文
🤖 大模型
① Contextual (In)variance: The Case of Gender Inference (英文原文)
• 作者 : Miguel Rios, Atharva Kulkarni, Dennis Wegner, Iacer Calixto
• 链接 : arXiv:2603.23489
• 摘要 : 揭示 LLM 在性别推断任务中的"上下文不变性失效"问题------同一问题换个说法,模型给出的性别推断结果会大幅变化。在 19--52% 的案例中出现系统性偏差,对高风险场景的 AI 部署提出严峻警告。
⭐ 值得深读
② SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning (英文原文)
• 作者 : Haoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
• 链接 : arXiv:2603.23483
• 摘要: 提出 SpecEyes 框架,用轻量级"投机规划器"预测 Agentic MLLM 的执行轨迹,通过认知门控机制提前终止昂贵的工具调用链。在 V* Bench 等基准上实现 1.1--3.35× 加速,同时准确率提升最高 +6.7%。
③ Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies (英文原文)
• 作者 : Hanzhong Zhang, Siyang Song, Jindong Wang
• 链接 : arXiv:2603.23406
• 摘要: 将人类研究者嵌入多智能体社区,通过受控话语干预追踪集体认知演化。发现 Agent 会形成内生立场并覆盖预设身份,先进模型存在 40% 的"虚伪性"行为(表面低信任却改变立场)。
🐙 AI Agent / 具身智能
① Code Review Agent Benchmark (英文原文)
• 作者 : Yuntong Zhang, Zhiyuan Pan, Imam Nur Bani Yusuf, Haifeng Ruan, Ridwan Shariffdeen, Abhik Roychoudhury
• 链接 : arXiv:2603.23448
• 摘要 : 发布 c-CRAB 代码审查 Agent 基准,系统评估 PR-Agent、Devin、Claude Code、Codex 等主流工具。现有 Agent 合计仅能解决约 40% 的任务,且审查视角与人类差异显著。
⭐ 值得深读
② Designing Agentic AI-Based Screening for Portfolio Investment (英文原文)
• 作者 : Mehmet Caner, Agostino Capponi, Nathan Sun, Jonathan Y. Tan
• 链接 : arXiv:2603.23300
• 摘要: 提出三层 Agentic AI 投资组合管理平台:LLM 基本面筛选 Agent + 情绪分析 Agent 协同生成买卖信号,再结合高维精度矩阵估计确定最优权重。在 S&P 500(2020--2024)数据上夏普比率优于传统方法。
③ VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs (英文原文)
• 作者 : Haoran Yuan, Weigang Yi, Zhenyu Zhang 等
• 链接 : arXiv:2603.23481
• 摘要 : 提出 VTAM,将触觉感知作为补充信号融入视频动作模型。在接触密集型操作任务中平均成功率达 90%,在薯片抓取等高精度力感知场景中比 π0.5 基线高出 80%。
⭐ 值得深读
🎨 多模态
① MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage (英文原文)
• 作者 : Ufaq Khan, Umair Nawaz, L D M S S Teja, Numaan Saeed, Muhammad Bilal, Yutong Xie, Mohammad Yaqub, Muhammad Haris Khan
• 链接 : arXiv:2603.23501
• 摘要 : 发布 MedObvious 基准(1880 个任务),测试 VLM 的医学输入验证能力。评测 17 个 VLM 发现:模型在正常输入上会幻觉出异常,医学 VLM 的预诊断验证能力仍未解决。
⭐ 值得深读
② VISion On Request (VISOR): Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions (英文原文)
• 作者 : Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos
• 链接 : arXiv:2603.23495
• 摘要: CVPR 2026 录用。提出 VISOR,通过稀疏化图文 token 交互而非压缩视觉 token 来降低推理成本。动态分配视觉计算预算,在细粒度理解任务上表现突出。
③ Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning (英文原文)
• 作者 : Jiacheng Hua, Yishu Yin, Yuhang Wu, Tai Wang, Yifei Huang, Miao Liu
• 链接 : arXiv:2603.23404
• 摘要: 提出 TRACE 提示方法,引导 MLLM 生成基于文本的 3D 环境表示作为中间推理轨迹。在 VSI-Bench 和 OST-Bench 上跨多种 MLLM 骨干网络均取得显著提升。
🚀 GitHub AI 趋势日榜 Top 15
今日趋势榜以 AI Agent 框架和 LLM 推理工具为主力,OpenClaw 以 335k⭐ 领跑,AutoGPT、n8n 紧随其后。值得关注的是 browser-use 和 RAGFlow 的强势表现,反映出"浏览器自动化 Agent"和"企业级 RAG+Agent 融合"是当前最受关注的工程方向。
⭐ 335.4k · TypeScript
你的个人 AI 助手,支持任何操作系统和平台
#2 Significant-Gravitas/AutoGPT
⭐ 182.8k · Python
面向所有人的可访问 AI 愿景,提供工具让你专注于真正重要的事情
#3 n8n-io/n8n
⭐ 181.0k · TypeScript
原生 AI 能力的工作流自动化平台,支持 400+ 集成
⭐ 166.1k · Go
本地运行 Kimi-K2.5、GLM-5、DeepSeek、Qwen 等大模型
⭐ 146.2k · Python
构建和部署 AI Agent 与工作流的可视化工具
⭐ 134.4k · TypeScript
生产级 Agent 工作流开发平台
⭐ 131.0k · Python
Agent 工程平台,LLM 应用开发框架
⭐ 130.1k · TypeScript
开源编码 Agent
⭐ 128.6k · Python
用户友好的 AI 界面,支持 Ollama、OpenAI API 等
#10 obra/superpowers
⭐ 111.9k · Shell
Agent 技能框架与软件开发方法论
#11 affaan-m/everything-claude-code
⭐ 106.6k · JavaScript
Agent 工具链性能优化系统
⭐ 99.6k · TypeScript
Postgres 开发平台,支持 AI 应用开发
⭐ 99.3k · C++
纯 C/C++ 实现的 LLM 推理引擎
⭐ 99.0k · TypeScript
将 Gemini 能力带入终端的开源 Agent
⭐ 98.0k · TypeScript
AI 专用 Web 数据 API,将网站转为 LLM 可用数据
💡 今日洞察
1. AGI 话语权之争白热化
黄仁勋"已实现 AGI"的声明引发争议,核心问题不在于技术是否达到,而在于谁能定义 AGI。在标准缺失的情况下,这种声明更多是市场行为而非科学结论。投资人需要警惕"概念股"风险。
2. AI 能源需求倒逼能源革命
OpenAI 洽购核聚变能源不是孤立事件。AI 的能耗增长速度远超传统能源供应能力,核聚变、数据中心余热回收、专用 AI 芯片能效优化将成为未来 5 年的确定性投资方向。
3. 具身智能的消费级拐点
MIT 的可穿戴机械手控制器标志着具身智能从工业场景向消费电子渗透。结合快手可灵 AI 的商业化成功,中国 AI 正在"应用层"和"终端层"形成独特优势。
✍️ 编辑策划 / 整理 :Fan Jun AI Tech Notes 组
📅 发布日期 :2026-03-25
数据来源:ArXiv API、GitHub API、MIT News、The Verge、36氪