谷歌 NotebookLM 视频概览新增多语言支持
NotebookLM[1] 的 Video Overviews 现已支持 80 种语言[2](包括简体中文),大幅提升了多语言内容处理能力。
同时,Audio Overviews 功能同步升级,新增生成长度选择功能,用户可在「短版/默认版」之间自由切换。
这个 Video Overviews 功能确实非常实用,强烈推荐佬们都试试!它生成的 PPT 采用演讲优先、内容辅助的设计理念,与市面上常见的将内容堆砌在页面中的 PPT 完全不一样。
微软开源 VibeVoice-1.5B:超长多说话人 TTS 模型

微软开源的 VibeVoice-1.5B[3] 文本转语音框架可生成长达 90 分钟的连续语音,并支持 4 个不同说话人切换,特别适合播客等长篇音频内容制作。
虽然支持中文生成,但语音带者'大佐味',听起来还挺有趣,有点像外国人口音。
Genspark 推出AI Designer

Genspark 最新推出的AI Designer[4] 智能体,定位为'AI 员工',仅需一条提示就能为用户生成从品牌标志到完整视觉系统的全套设计方案。
图中演示了一个咖啡品牌案例,所有设计内容------包括 Logo、店铺装修、打印物料、产品包装、网站和 APP 界面、广告及社媒海报------全部由 AI 生成。
阿里 Wan 2.2-S2V 模型预告:视频音频同步生成

阿里通义万相团队[5]在 X 上发布预告,即将推出新模型 Wan 2.2-S2V。
该模型似乎不仅能生成视频,还能一并生成音频(源推引用了一条带唱歌音频的 AI 视频)。
微信测试对话式 AI 新闻播报

微信正在「快讯」页面灰度测试「听快讯」功能,不是传统单音播报模式,而是采用双人 AI 主播对话形式,将新闻以更自然、更具交流感的方式讲述出来。
目前该功能仍处于测试阶段,佬们可以在微信搜索「快讯」,进入后点击右上角「听快讯」体验,如果没看到这个选项,说明还没灰度到你哦!