OpenAudio S1：支持多语言情感控制的专业级 TTS 模型

三花AI2025-06-05 11:40

OpenAudio S1：支持多语言情感控制的专业级 TTS 模型

OpenAudio S1 是由 OpenAudio 团队开发的文本转语音（TTS）模型，它能像专业配音演员一样生成语音。

该模型支持丰富的情感和语气精细控制，涵盖英语、中文、日语、德语、法语等多种语言。价格非常良心，仅为每百万字节 15 美元（约合每小时 0.8 美元）。

佬们可以在官方博客 $1$ 查看技术报告，或者在FishAudio $2$ 上直接在线体验。

三花的小视频宝也支持这个模型！

LumaAI 发布 Modify Video：一键重塑视频风格与内容

LumaAI 发布 Modify Video 功能，从官方演示视频来看 $3$ ，效果非常的好。

该功能能够智能重塑视频中的风格设定、角色形象和场景布局。

Stability AI 发布 Virtual Camera v1.1：单图生成运镜视频

Stable Diffusion 开发团队 SAI(Stability AI) 正式推出Virtual Camera v1.1 $4$ 版本，佬们可以在 Hugging Face 平台 $5$ 上体验这个自由相机轨迹生成模型。

该模型支持通过单张图片生成多种专业运镜视频的能力，也支持输入多视角实现更好的视频生成。

Curosr 发布 v1.0 版本

Cursor 1.0 全面开放了 Background Agent 让所有用户都能使用远程编程助手，新增的 BugBot 可自动审查 GitHub PR 并快速修复问题，Jupyter Notebook 现已支持通过 Agent 直接编辑多代码单元格，实验性的记忆功能能保存对话上下文供后续参考，同时简化了 MCP 服务器的一键安装并支持 OAuth 认证，聊天窗口现在能直接渲染图表和表格，全新的仪表盘还提供了更详细的用量统计分析。