本周AI领域迎来密集发布:Google、阶跃、联影智能、阿里、小米、商汤、NVIDIA、腾讯混元、银河通用机器人、生数科技等密集发布开源多模态、医疗、语音、具身智能等AI大模型;AI Agent方面,OpenClaw、灵光App、百度GenFlow4.0、腾讯ima copilot、亚马逊Amazon Quick相继更新,Claude推出8大创意软件连接器,AI工具Warp开源等;市场层面,小红书发布AI治理主张,中方禁止Meta收购Manus,Ghostty项目因平台故障迁出GitHub,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
Google DeepMind团队联合推出通用视觉模型「Vision Banana」
4月24日消息,Google DeepMind团队联合何恺明、谢赛宁等发布论文《Image Generators are Generalist Vision Learners》,推出通用视觉模型「Vision Banana」,该模型基于图像生成模型Nano Banana Pro打造的,无需新增专用结构,通过将各类视觉理解任务转化为图像生成任务完成指令微调,在图像分割、深度估计、表面法向量估计等2D与3D视觉任务上媲美甚至超越SAM 3、Depth Anything V3等专业模型,且未损失原有图像生成能力,研究证实图像生成器是通用视觉学习器,图像生成可作为视觉任务统一接口,标志着计算机视觉迎来类似NLP的GPT式范式转变,为视觉AGI发展奠定基础。
参考:视觉GPT时刻来了!DeepMind用Vision Banana证明「生成即理解」,何恺明、谢赛宁都参与
阶跃发布新一代自动语音识别模型「StepAudio 2.5 ASR」
4月24日,阶跃发布新一代自动语音识别模型「StepAudio 2.5 ASR」,率先将LLM的推理加速技术引入语音识别领域,基于ASR+MTP-5深度融合架构,实现推理速度提升400%、时延降低60%、峰值达500 Tokens/s、成本下降80%,可秒级转写5分钟音视频;精度达业内SOTA,中英文评测错误率低于竞品,依托32K上下文窗口能一次性完整转写30分钟音频,解决传统切片转写的上下文断裂问题,目前已在阶跃星辰开放平台与Step Plan全量上线。
参考:阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音"秒级转写"
联影智能开源全球首个医疗视频理解大模型「uAI Nexus MedVLM」
4月26日,联影智能开源全球首个医疗视频理解大模型「uAI Nexus MedVLM」,论文被CVPR 2026收录,该模型基于超53万条视频-指令数据训练,支持4B/7B参数规模且单卡可部署,覆盖内镜、腹腔镜等多类手术及护理场景,在手术安全评估、时空动作定位等核心任务上性能远超GPT-5.4、Gemini-3.1等通用大模型,团队同步开源含6245个视频-指令对的MedVidBench标准测试集并上线全球医疗视频理解模型英雄榜,可用于术前方案优化、术中实时预警、术后报告生成,助力医疗资源下沉与临床智能化,相关Demo、代码、数据集、榜单及论文均已公开。
参考:全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来!
阿里巴巴ATH团队推出的AI视频生成模型「HappyHorse 1.0」开启灰测
4月27日,阿里巴巴ATH团队推出的AI视频生成模型及创作平台「HappyHorse 1.0」开启灰测,采用原生多模态架构与音视频联合生成方案,具备多模态视频生成、视频编辑两大核心功能,在画面质感、运镜转场、人物真实感等方面表现突出,适配广告、电商、短剧、社媒创意及国际化出海等场景,同时推出4月27日至5月10日全场7折、新用户赠66积分等福利,并招募全球首批超级创作者。
参考:快乐小马,即刻出发!HappyHorse 1.0 来了
小米正式开源「MiMo-V2.5」系列大模型,并推出百万亿Token计划
4月28日,小米正式开源「MiMo-V2.5」系列大模型,采用MIT协议,支持商用推理部署与二次训练,包含两款模型,均支持100万上下文窗口,Pro版面向复杂任务场景,深度适配Agent与Coding应用,多项开源榜单第一;原生全模态版支持文本、图像、视频和音频理解;同时推出「MiMo Orbit」百万亿Token计划,30天内发放100T免费Token,并推出Agent生态共建与芯片/推理框架首日适配支持,面向全球开发者开放合作,共推AI生态落地。
参考:小米 MiMo-V2.5 系列开源 & Orbit 百万亿 Token 计划启动
商汤发布并开源日日新「SenseNova U1」系列原生理解生成统一模型
4月28日,商汤正式发布并开源日日新「SenseNova U1」系列原生理解生成统一多模态模型,基于自研NEO-unify架构,摒弃传统拼接式设计,在单一表征空间内统一语言与视觉的理解、推理与生成,信息损耗更低、效率更高;本次开源轻量版U1 Lite含8B稠密与A3B MoE两款规格,多项基准达同量级开源SOTA,性能比肩大型商业闭源模型,还业内首创连续性图文创作输出,支持单次调用完成连贯图文生成与高保真图像创作,相关模型已在GitHub与Hugging Face开放获取,后续将推出更大规格版本并持续完善开源生态。
参考:全面开源!商汤日日新SenseNova U1发布,迈向模型理解生成统一时代
NVIDIA推出全新多模态推理模型「Nemotron 3 Nano Omni」
4月28日,NVIDIA推出全新多模态推理模型「Nemotron 3 Nano Omni」,该模型为单一统一架构,可处理文本、视觉、语音、视频、文档等多模态输入并以文本输出,采用融合Mamba与Transformer的混合型MoE架构,能动态激活专家网络,吞吐量达同类开放模型9倍,内存与计算效率最高提升4倍,在多项权威榜单表现优异,支持开源、可商用与多场景部署,早期已获多家企业采用,助力NVIDIA构建AI全栈生态。
参考:英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍
阶跃发布新一代轻量级图像生成编辑模型「Step Image Edit 2」
4月29日,阶跃发布新一代轻量级图像生成编辑模型「Step Image Edit 2」,仅3.5B参数量,却实现对12B-20B级开源模型的跨量级超越,单次生图仅需0.5-2秒,具备图像生成、编辑、中英文渲染、局部编辑、视觉推理等能力,可覆盖IP创作、海报设计、人像美颜等多场景,在KRIS-Bench轻量级图像编辑模型榜单综合排名第一;其技术突破源于多专家驱动的自演化学习、分布匹配强化学习,以及超五千万专项训练数据与三级质控体系,目前已全量上线阶跃星辰开放平台与Step Plan,可限时免费体验。
参考:阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
腾讯混元推出手机端离线翻译模型「Hy-MT1.5-1.8B-1.25bit」
4月29日,腾讯混元推出手机端离线翻译模型「Hy-MT1.5-1.8B-1.25bit」,依托极致量化压缩技术将支持33种语言、5种方言/民汉及1056个翻译方向的模型压缩至440MB,无需联网即可在安卓手机本地运行,翻译质量优于Google翻译,还提供适配中高端机型的2-bit版本,模型权重、代码、技术报告已全面开源,国内用户可通过魔搭社区、海外用户可通过Huggingface下载体验Demo与模型,具备全离线、零成本、隐私安全的特点。
参考:出国必备+1!腾讯混元开源手机端离线翻译模型,仅0.4G,支持33种语言
银河通用机器人推出跨本体隐式世界-动作基础模型「LDA」
4月29日,银河通用机器人推出跨本体隐式世界-动作基础模型「LDA」,依托自研银河星数数据体系,首次实现虚实、人机、高低质量及有无动作标签等全域异构数据的统一有效利用,让具身智能进入数据规模驱动的规模化学习新阶段;模型采用WAM世界-动作统一框架,放弃VAE转向DINO结构化潜空间并提出以手为中心的统一动作空间,解决跨本体视觉与动作对齐难题,具备跨本体泛化、长程灵巧操作等能力,还能从失败数据中学习提升,真机表现优于同类模型,同时团队开源核心算法与代码,推动具身智能从演示能力走向可持续运行的实用化阶段。
参考:银河通用机器人推出 LDA:全域数据、跨本体隐式世界-动作基座模型
生数科技发布通用世界行动模型「MotuBrain」
4月29日,生数科技发布通用世界行动模型「MotuBrain」,定位为具身智能机器人通用大脑,基于原创UniDiffuser框架与三流MoT架构,统一建模视觉、动作与语言,具备一脑多能、一脑多型、一脑贯通、一脑预见四大核心能力,可适配多机器人本体、完成长程复杂任务与动态决策,已在WorldArena、RoboTwin 2.0两大国际权威榜单夺冠,该模型是生数科技World Action Model从技术验证走向商用落地的关键成果,也是其通用世界模型战略在物理空间的重要布局,目前已与多家具身智能企业达成合作,推动通用机器人大脑落地真实场景。
参考:「为行动而生」生数科技发布通用世界行动模型 Motubrain
AI Agent
OpenClaw发布「v2026.4.25」版本,聚焦AI智能体透明化与可控性
4月25日,OpenClaw发布「v2026.4.25」版本,以"少点神秘,多点机械"为核心口号,聚焦AI智能体透明化与可控性,本次更新涵盖五大方向:接入13家TTS语音提供商并优化语音配置与命令、全面接入OTEL可观测性框架实现模型调用等全链路监控且默认不暴露原始prompt、重构插件冷启动为冷查找表+持久化注册表元数据以提升启动速度、优化浏览器端功能与安装更新流程、修复多项开发者痛点问题,标志着AI智能体竞争从模型能力转向可靠性与可观测性,推动其更适配生产环境。
参考:OpenClaw大更新,AI智能体不再是黑箱!官方口号:少点神秘
灵光App正式上线「体验世界模型」功能,手机随时体验
4月27日,灵光App正式上线「体验世界模型」功能,首次将世界模型搬进手机,随时随地"一图生成3D世界";用户上传一张图片,选择生成图中世界或输入"用第一人称视角探索世界"指令,只需几秒即可生成3D世界,还能通过摇杆控制进退,以第一人称视角像玩游戏一样探索。
百度文库网盘联合推出通用智能体「GenFlow4.0」,并升级「Office Agent」
4月27日,在百度AI DAY上,百度文库网盘联合推出通用智能体「GenFlow4.0」,并全面升级「Office Agent」。「GenFlow4.0」上线一年已迭代4个版本,月活用户破1亿、月任务交付达2亿次;「Office Agent」可一句话完成PPT、Excel、Word全流程办公处理,还新增记忆中心,同时深度兼容OpenClaw,支持个人与团队一键部署、多端无缝协作,5月底将发布团队版Agent协作军团,能大幅压缩办公与团队协作耗时,此外Create2026百度AI开发者大会也将带来更多相关产品与实战经验。
Anthropic宣布Claude联合推出8大创意设计建模软件的连接器
4月29日,Anthropic宣布Claude联合推出可对接Blender、Autodesk、Adobe、Ableton等8大创意设计建模软件的连接器,支持自然语言操控3D建模、平面设计、音乐制作、现场视觉等工具,可提供软件辅导、编写脚本、衔接多软件工作流、处理批量任务等,Anthropic还加入Blender开发基金并与罗德岛设计学院、瑞林艺术与设计学院、伦敦大学金史密斯学院三所顶级艺术院校开展试点合作,向相关师生开放Claude及新连接器权限。
参考:重磅!Claude一口气打通Adobe、Blender等8大设计建模创意软件,3所顶级艺术院校同步试点
腾讯AI工作台ima正式推出知识Agent功能「copilot」
4月29日,腾讯AI工作台ima正式推出知识Agent功能「copilot」,已覆盖Mac、Windows、iOS、安卓、鸿蒙多端,采用申请制开放使用。该功能具备自主进化的四大记忆模块,可记住用户信息与习惯、跨场景连续调用,减少重复输入;支持全场景感知,能伴随理解网页、文件、知识库等当前内容,无需额外上传即可处理;同步上线Skills生态,内置官方技能包并支持扩展,可完成知识库与笔记操作、生成报告、创建技能等复杂任务;用户可自定义其人设,平台还提供新用户算力福利,也支持接入第三方模型API,致力于成为用户的个人知识伙伴。
参考:你的第一个知识Agent:ima上线copilot功能
亚马逊云科技推出AI工作助手「Amazon Quick」
4月29日,在「What's Next」发布会上,亚马逊云科技与OpenAI升级合作,将GPT-5.5、GPT-5.4等新模型接入Amazon Bedrock(有限预览),上线Codex代码Agent及OpenAI赋能的托管Agent;同时推出AI工作助手「Amazon Quick」,新增桌面应用、免费/进阶套餐、视觉素材生成及多应用集成;Amazon Connect升级为四大Agentic AI解决方案,覆盖供应链、招聘、客户服务、医疗场景,新用户注册海外账户可获最高200美元服务抵扣金。
AI 工具
OpenAI作为创始赞助商的AI终端工具「Warp」正式开源
4月29日,由Sam Altman投资、OpenAI作为创始赞助商的AI终端工具「Warp」正式在GitHub开源,采用AGPL许可证,推出Agent优先协作流与Oz代理平台,15小时内Star数达3.5万;Warp兼容Kimi、通义千问等多开源模型,进化为可定制的AI代理开发环境,其创始人Zach Lloyd曾因早期聚焦协作功能遭遇市场冷遇,后转向AI代理核心路线实现爆发增长,累计融资超7300万美元,此次开源旨在集结社区力量、对抗闭源垄断,重塑AGI时代开发者与AI代理协同的软件开发范式。
参考:Altman 投的 Agent 终端 Warp 开源了,15小时Star 数飙到3.5万!开源是延长软件寿命的最佳方式
技术突破
面壁智能联合清华、OpenBMB等发布「MiniCPM-o 4.5」技术报告
4月28日,面壁智能联合清华、OpenBMB等发布「MiniCPM-o 4.5」技术报告,推出业界首款9B参数端到端全双工全模态大模型,搭载自研Omni-Flow流式全模态架构,可实现边看、边听、边说、主动提醒的连续实时交互,支持打断与插话,无需依赖VAD。模型开源且适配12GB消费级显卡,并同步上线免费在线Demo、全双工API、Windows/macOS一键安装包与Linux开源Demo仓库,数据本地处理更安全、断网可用。推理效率、视觉、全双工交互及语音生成性能超越业界顶尖模型,适用于主动助手、无障碍辅助等场景,推动AI交互从一问一答迈向自然连续的全双工时代。
参考:断网可用!首款全双工全模态大模型技术报告发布,附一键安装包
市场动态
小红书发布「AI治理主张」,规范AI内容创作生态
4月27日,小红书首次公布「AI治理主张」,倡导创作者将AI作为创意放大器,鼓励主动标注AI内容,未标注者平台将统一添加标识;平台严守真实与安全底线,反对AI造假、侵权,持续完善AI内容识别治理能力,并上线AI笔记贴条提示申诉通道,守护社区真实、公平、温暖的底色。
中国外商投资安全审查工作机制办公室依法禁止Meta收购Manus项目
4月27日,中国外商投资安全审查工作机制办公室依法禁止Meta收购Manus项目,要求撤销交易。Manus由中国团队与技术发展起来,后将总部迁至新加坡、剥离境内核心业务并向境外转移关键资产,最终拟出售给Meta,属于不合规"洗澡式出海",涉及关键技术、数据安全等国家安全风险。此次审查是我国平衡对外开放与国家安全的通行监管举措,彰显开放不忘安全、明确安全边界,为合规外资提供稳定预期。
拥有5.2万星的开源终端项目Ghostty宣布将离开GitHub
4月29日,拥有5.2万星的开源终端项目Ghostty宣布将离开GitHub,其创作者、2008年加入GitHub的资深开发者Mitchell Hashimoto在博客中表示,因GitHub近期频繁出现系统故障,严重影响正常开发工作,尽管对平台怀有18年深厚情感,仍不得不选择迁走项目,后续会逐步完成迁移并保留GitHub只读镜像,此事在开发者社区引发广泛共鸣与讨论,也暴露出GitHub在商业化与AI化过程中忽视基础服务稳定性的问题。