MIAOYUN | 每周AI新鲜事儿 260430

本周AI领域迎来密集发布：Google、阶跃、联影智能、阿里、小米、商汤、NVIDIA、腾讯混元、银河通用机器人、生数科技等密集发布开源多模态、医疗、语音、具身智能等AI大模型；AI Agent方面，OpenClaw、灵光App、百度GenFlow4.0、腾讯ima copilot、亚马逊Amazon Quick相继更新，Claude推出8大创意软件连接器，AI工具Warp开源等；市场层面，小红书发布AI治理主张，中方禁止Meta收购Manus，Ghostty项目因平台故障迁出GitHub，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

Google DeepMind团队联合推出通用视觉模型「Vision Banana」

4月24日消息，Google DeepMind团队联合何恺明、谢赛宁等发布论文《Image Generators are Generalist Vision Learners》，推出通用视觉模型「Vision Banana」，该模型基于图像生成模型Nano Banana Pro打造的，无需新增专用结构，通过将各类视觉理解任务转化为图像生成任务完成指令微调，在图像分割、深度估计、表面法向量估计等2D与3D视觉任务上媲美甚至超越SAM 3、Depth Anything V3等专业模型，且未损失原有图像生成能力，研究证实图像生成器是通用视觉学习器，图像生成可作为视觉任务统一接口，标志着计算机视觉迎来类似NLP的GPT式范式转变，为视觉AGI发展奠定基础。

参考：视觉GPT时刻来了！DeepMind用Vision Banana证明「生成即理解」，何恺明、谢赛宁都参与

阶跃发布新一代自动语音识别模型「StepAudio 2.5 ASR」

4月24日，阶跃发布新一代自动语音识别模型「StepAudio 2.5 ASR」，率先将LLM的推理加速技术引入语音识别领域，基于ASR+MTP-5深度融合架构，实现推理速度提升400%、时延降低60%、峰值达500 Tokens/s、成本下降80%，可秒级转写5分钟音视频；精度达业内SOTA，中英文评测错误率低于竞品，依托32K上下文窗口能一次性完整转写30分钟音频，解决传统切片转写的上下文断裂问题，目前已在阶跃星辰开放平台与Step Plan全量上线。

参考：阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音"秒级转写"

联影智能开源全球首个医疗视频理解大模型「uAI Nexus MedVLM」

4月26日，联影智能开源全球首个医疗视频理解大模型「uAI Nexus MedVLM」，论文被CVPR 2026收录，该模型基于超53万条视频-指令数据训练，支持4B/7B参数规模且单卡可部署，覆盖内镜、腹腔镜等多类手术及护理场景，在手术安全评估、时空动作定位等核心任务上性能远超GPT-5.4、Gemini-3.1等通用大模型，团队同步开源含6245个视频-指令对的MedVidBench标准测试集并上线全球医疗视频理解模型英雄榜，可用于术前方案优化、术中实时预警、术后报告生成，助力医疗资源下沉与临床智能化，相关Demo、代码、数据集、榜单及论文均已公开。

参考：全球首个医疗视频理解大模型开源！6k+组精标测试集与英雄榜同步上线，开发者速来！

阿里巴巴ATH团队推出的AI视频生成模型「HappyHorse 1.0」开启灰测

4月27日，阿里巴巴ATH团队推出的AI视频生成模型及创作平台「HappyHorse 1.0」开启灰测，采用原生多模态架构与音视频联合生成方案，具备多模态视频生成、视频编辑两大核心功能，在画面质感、运镜转场、人物真实感等方面表现突出，适配广告、电商、短剧、社媒创意及国际化出海等场景，同时推出4月27日至5月10日全场7折、新用户赠66积分等福利，并招募全球首批超级创作者。

参考：快乐小马，即刻出发！HappyHorse 1.0 来了

小米正式开源「MiMo-V2.5」系列大模型，并推出百万亿Token计划

4月28日，小米正式开源「MiMo-V2.5」系列大模型，采用MIT协议，支持商用推理部署与二次训练，包含两款模型，均支持100万上下文窗口，Pro版面向复杂任务场景，深度适配Agent与Coding应用，多项开源榜单第一；原生全模态版支持文本、图像、视频和音频理解；同时推出「MiMo Orbit」百万亿Token计划，30天内发放100T免费Token，并推出Agent生态共建与芯片/推理框架首日适配支持，面向全球开发者开放合作，共推AI生态落地。

参考：小米 MiMo-V2.5 系列开源 & Orbit 百万亿 Token 计划启动

商汤发布并开源日日新「SenseNova U1」系列原生理解生成统一模型

4月28日，商汤正式发布并开源日日新「SenseNova U1」系列原生理解生成统一多模态模型，基于自研NEO-unify架构，摒弃传统拼接式设计，在单一表征空间内统一语言与视觉的理解、推理与生成，信息损耗更低、效率更高；本次开源轻量版U1 Lite含8B稠密与A3B MoE两款规格，多项基准达同量级开源SOTA，性能比肩大型商业闭源模型，还业内首创连续性图文创作输出，支持单次调用完成连贯图文生成与高保真图像创作，相关模型已在GitHub与Hugging Face开放获取，后续将推出更大规格版本并持续完善开源生态。

参考：全面开源！商汤日日新SenseNova U1发布，迈向模型理解生成统一时代

NVIDIA推出全新多模态推理模型「Nemotron 3 Nano Omni」

4月28日，NVIDIA推出全新多模态推理模型「Nemotron 3 Nano Omni」，该模型为单一统一架构，可处理文本、视觉、语音、视频、文档等多模态输入并以文本输出，采用融合Mamba与Transformer的混合型MoE架构，能动态激活专家网络，吞吐量达同类开放模型9倍，内存与计算效率最高提升4倍，在多项权威榜单表现优异，支持开源、可商用与多场景部署，早期已获多家企业采用，助力NVIDIA构建AI全栈生态。

参考：英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍

阶跃发布新一代轻量级图像生成编辑模型「Step Image Edit 2」

4月29日，阶跃发布新一代轻量级图像生成编辑模型「Step Image Edit 2」，仅3.5B参数量，却实现对12B-20B级开源模型的跨量级超越，单次生图仅需0.5-2秒，具备图像生成、编辑、中英文渲染、局部编辑、视觉推理等能力，可覆盖IP创作、海报设计、人像美颜等多场景，在KRIS-Bench轻量级图像编辑模型榜单综合排名第一；其技术突破源于多专家驱动的自演化学习、分布匹配强化学习，以及超五千万专项训练数据与三级质控体系，目前已全量上线阶跃星辰开放平台与Step Plan，可限时免费体验。

参考：阶跃 Step Image Edit 2 上线！小身材、大能力、快响应

腾讯混元推出手机端离线翻译模型「Hy-MT1.5-1.8B-1.25bit」

4月29日，腾讯混元推出手机端离线翻译模型「Hy-MT1.5-1.8B-1.25bit」，依托极致量化压缩技术将支持33种语言、5种方言/民汉及1056个翻译方向的模型压缩至440MB，无需联网即可在安卓手机本地运行，翻译质量优于Google翻译，还提供适配中高端机型的2-bit版本，模型权重、代码、技术报告已全面开源，国内用户可通过魔搭社区、海外用户可通过Huggingface下载体验Demo与模型，具备全离线、零成本、隐私安全的特点。

参考：出国必备+1！腾讯混元开源手机端离线翻译模型，仅0.4G，支持33种语言

银河通用机器人推出跨本体隐式世界-动作基础模型「LDA」

4月29日，银河通用机器人推出跨本体隐式世界-动作基础模型「LDA」，依托自研银河星数数据体系，首次实现虚实、人机、高低质量及有无动作标签等全域异构数据的统一有效利用，让具身智能进入数据规模驱动的规模化学习新阶段；模型采用WAM世界-动作统一框架，放弃VAE转向DINO结构化潜空间并提出以手为中心的统一动作空间，解决跨本体视觉与动作对齐难题，具备跨本体泛化、长程灵巧操作等能力，还能从失败数据中学习提升，真机表现优于同类模型，同时团队开源核心算法与代码，推动具身智能从演示能力走向可持续运行的实用化阶段。

参考：银河通用机器人推出 LDA：全域数据、跨本体隐式世界-动作基座模型

生数科技发布通用世界行动模型「MotuBrain」

4月29日，生数科技发布通用世界行动模型「MotuBrain」，定位为具身智能机器人通用大脑，基于原创UniDiffuser框架与三流MoT架构，统一建模视觉、动作与语言，具备一脑多能、一脑多型、一脑贯通、一脑预见四大核心能力，可适配多机器人本体、完成长程复杂任务与动态决策，已在WorldArena、RoboTwin 2.0两大国际权威榜单夺冠，该模型是生数科技World Action Model从技术验证走向商用落地的关键成果，也是其通用世界模型战略在物理空间的重要布局，目前已与多家具身智能企业达成合作，推动通用机器人大脑落地真实场景。

参考：「为行动而生」生数科技发布通用世界行动模型 Motubrain

AI Agent

OpenClaw发布「v2026.4.25」版本，聚焦AI智能体透明化与可控性

4月25日，OpenClaw发布「v2026.4.25」版本，以"少点神秘，多点机械"为核心口号，聚焦AI智能体透明化与可控性，本次更新涵盖五大方向：接入13家TTS语音提供商并优化语音配置与命令、全面接入OTEL可观测性框架实现模型调用等全链路监控且默认不暴露原始prompt、重构插件冷启动为冷查找表+持久化注册表元数据以提升启动速度、优化浏览器端功能与安装更新流程、修复多项开发者痛点问题，标志着AI智能体竞争从模型能力转向可靠性与可观测性，推动其更适配生产环境。

参考：OpenClaw大更新，AI智能体不再是黑箱！官方口号：少点神秘

灵光App正式上线「体验世界模型」功能，手机随时体验

4月27日，灵光App正式上线「体验世界模型」功能，首次将世界模型搬进手机，随时随地"一图生成3D世界"；用户上传一张图片，选择生成图中世界或输入"用第一人称视角探索世界"指令，只需几秒即可生成3D世界，还能通过摇杆控制进退，以第一人称视角像玩游戏一样探索。

参考：来灵光App，用手机体验世界模型！

百度文库网盘联合推出通用智能体「GenFlow4.0」，并升级「Office Agent」

4月27日，在百度AI DAY上，百度文库网盘联合推出通用智能体「GenFlow4.0」，并全面升级「Office Agent」。「GenFlow4.0」上线一年已迭代4个版本，月活用户破1亿、月任务交付达2亿次；「Office Agent」可一句话完成PPT、Excel、Word全流程办公处理，还新增记忆中心，同时深度兼容OpenClaw，支持个人与团队一键部署、多端无缝协作，5月底将发布团队版Agent协作军团，能大幅压缩办公与团队协作耗时，此外Create2026百度AI开发者大会也将带来更多相关产品与实战经验。

参考：上班一年卷出4个版本，这个通用智能体升级了

Anthropic宣布Claude联合推出8大创意设计建模软件的连接器

4月29日，Anthropic宣布Claude联合推出可对接Blender、Autodesk、Adobe、Ableton等8大创意设计建模软件的连接器，支持自然语言操控3D建模、平面设计、音乐制作、现场视觉等工具，可提供软件辅导、编写脚本、衔接多软件工作流、处理批量任务等，Anthropic还加入Blender开发基金并与罗德岛设计学院、瑞林艺术与设计学院、伦敦大学金史密斯学院三所顶级艺术院校开展试点合作，向相关师生开放Claude及新连接器权限。

参考：重磅！Claude一口气打通Adobe、Blender等8大设计建模创意软件，3所顶级艺术院校同步试点

腾讯AI工作台ima正式推出知识Agent功能「copilot」

4月29日，腾讯AI工作台ima正式推出知识Agent功能「copilot」，已覆盖Mac、Windows、iOS、安卓、鸿蒙多端，采用申请制开放使用。该功能具备自主进化的四大记忆模块，可记住用户信息与习惯、跨场景连续调用，减少重复输入；支持全场景感知，能伴随理解网页、文件、知识库等当前内容，无需额外上传即可处理；同步上线Skills生态，内置官方技能包并支持扩展，可完成知识库与笔记操作、生成报告、创建技能等复杂任务；用户可自定义其人设，平台还提供新用户算力福利，也支持接入第三方模型API，致力于成为用户的个人知识伙伴。

参考：你的第一个知识Agent：ima上线copilot功能

亚马逊云科技推出AI工作助手「Amazon Quick」

4月29日，在「What's Next」发布会上，亚马逊云科技与OpenAI升级合作，将GPT-5.5、GPT-5.4等新模型接入Amazon Bedrock（有限预览），上线Codex代码Agent及OpenAI赋能的托管Agent；同时推出AI工作助手「Amazon Quick」，新增桌面应用、免费/进阶套餐、视觉素材生成及多应用集成；Amazon Connect升级为四大Agentic AI解决方案，覆盖供应链、招聘、客户服务、医疗场景，新用户注册海外账户可获最高200美元服务抵扣金。

参考：亚马逊云科技联手OpenAI，一口气放了三个大招！

AI 工具

OpenAI作为创始赞助商的AI终端工具「Warp」正式开源

4月29日，由Sam Altman投资、OpenAI作为创始赞助商的AI终端工具「Warp」正式在GitHub开源，采用AGPL许可证，推出Agent优先协作流与Oz代理平台，15小时内Star数达3.5万；Warp兼容Kimi、通义千问等多开源模型，进化为可定制的AI代理开发环境，其创始人Zach Lloyd曾因早期聚焦协作功能遭遇市场冷遇，后转向AI代理核心路线实现爆发增长，累计融资超7300万美元，此次开源旨在集结社区力量、对抗闭源垄断，重塑AGI时代开发者与AI代理协同的软件开发范式。

参考：Altman 投的 Agent 终端 Warp 开源了，15小时Star 数飙到3.5万！开源是延长软件寿命的最佳方式

技术突破

面壁智能联合清华、OpenBMB等发布「MiniCPM-o 4.5」技术报告

4月28日，面壁智能联合清华、OpenBMB等发布「MiniCPM-o 4.5」技术报告，推出业界首款9B参数端到端全双工全模态大模型，搭载自研Omni-Flow流式全模态架构，可实现边看、边听、边说、主动提醒的连续实时交互，支持打断与插话，无需依赖VAD。模型开源且适配12GB消费级显卡，并同步上线免费在线Demo、全双工API、Windows/macOS一键安装包与Linux开源Demo仓库，数据本地处理更安全、断网可用。推理效率、视觉、全双工交互及语音生成性能超越业界顶尖模型，适用于主动助手、无障碍辅助等场景，推动AI交互从一问一答迈向自然连续的全双工时代。

参考：断网可用！首款全双工全模态大模型技术报告发布，附一键安装包

市场动态

小红书发布「AI治理主张」，规范AI内容创作生态

4月27日，小红书首次公布「AI治理主张」，倡导创作者将AI作为创意放大器，鼓励主动标注AI内容，未标注者平台将统一添加标识；平台严守真实与安全底线，反对AI造假、侵权，持续完善AI内容识别治理能力，并上线AI笔记贴条提示申诉通道，守护社区真实、公平、温暖的底色。

参考：小红书首次公布「AI治理主张」

中国外商投资安全审查工作机制办公室依法禁止Meta收购Manus项目

4月27日，中国外商投资安全审查工作机制办公室依法禁止Meta收购Manus项目，要求撤销交易。Manus由中国团队与技术发展起来，后将总部迁至新加坡、剥离境内核心业务并向境外转移关键资产，最终拟出售给Meta，属于不合规"洗澡式出海"，涉及关键技术、数据安全等国家安全风险。此次审查是我国平衡对外开放与国家安全的通行监管举措，彰显开放不忘安全、明确安全边界，为合规外资提供稳定预期。

参考：中方禁止Manus并购案，禁止的是什么？

拥有5.2万星的开源终端项目Ghostty宣布将离开GitHub

4月29日，拥有5.2万星的开源终端项目Ghostty宣布将离开GitHub，其创作者、2008年加入GitHub的资深开发者Mitchell Hashimoto在博客中表示，因GitHub近期频繁出现系统故障，严重影响正常开发工作，尽管对平台怀有18年深厚情感，仍不得不选择迁走项目，后续会逐步完成迁移并保留GitHub只读镜像，此事在开发者社区引发广泛共鸣与讨论，也暴露出GitHub在商业化与AI化过程中忽视基础服务稳定性的问题。

参考：5.2万星项目Ghostty逃离GitHub！