OpenAudio S1:支持多语言情感控制的专业级 TTS 模型

OpenAudio S1:支持多语言情感控制的专业级 TTS 模型

OpenAudio S1 是由 OpenAudio 团队开发的文本转语音(TTS)模型,它能像专业配音演员一样生成语音。

该模型支持丰富的情感和语气精细控制,涵盖英语、中文、日语、德语、法语等多种语言。价格非常良心,仅为每百万字节 15 美元(约合每小时 0.8 美元)。

佬们可以在官方博客[1]查看技术报告,或者在FishAudio[2]上直接在线体验。

三花的小视频宝也支持这个模型!

LumaAI 发布 Modify Video:一键重塑视频风格与内容

LumaAI 发布 Modify Video 功能,从官方演示视频来看[3],效果非常的好。

该功能能够智能重塑视频中的风格设定、角色形象和场景布局。

Stability AI 发布 Virtual Camera v1.1:单图生成运镜视频

Stable Diffusion 开发团队 SAI(Stability AI) 正式推出Virtual Camera v1.1 [4] 版本,佬们可以在 Hugging Face 平台[5]上体验这个自由相机轨迹生成模型。

该模型支持通过单张图片生成多种专业运镜视频的能力,也支持输入多视角实现更好的视频生成。

Curosr 发布 v1.0 版本

Cursor 1.0 全面开放了 Background Agent 让所有用户都能使用远程编程助手,新增的 BugBot 可自动审查 GitHub PR 并快速修复问题,Jupyter Notebook 现已支持通过 Agent 直接编辑多代码单元格,实验性的 记忆功能 能保存对话上下文供后续参考,同时简化了 MCP 服务器的一键安装 并支持 OAuth 认证,聊天窗口现在能直接渲染图表和表格,全新的仪表盘还提供了更详细的用量统计分析。

相关推荐
一切尽在,你来12 分钟前
1.1 AI大模型应用开发和Langchain的关系
人工智能·langchain
Coder_Boy_19 分钟前
基于Spring AI的分布式在线考试系统-事件处理架构实现方案
人工智能·spring boot·分布式·spring
Light6033 分钟前
智链未来:彭山物流园区从物理基建到数据智能体的全维度构建方案
人工智能·系统架构·数字孪生·智慧物流·实施路径·彭山项目
AI资源库36 分钟前
GLM-4.7-Flash模型深入解析
人工智能·语言模型
一切尽在,你来1 小时前
1.2 LangChain 1.2.7 版本核心特性与升级点
人工智能·langchain
LYFlied1 小时前
AI大时代下前端跨端解决方案的现状与演进路径
前端·人工智能
深蓝电商API1 小时前
图片验证码识别:pytesseract+opencv入门
人工智能·opencv·计算机视觉·pytesseract
.Katherine௰1 小时前
AI数字人模拟面试机器人
人工智能
光影少年1 小时前
AI 前端 / 高级前端
前端·人工智能·状态模式
zhangshuang-peta1 小时前
OpenCode vs Claude Code vs OpenAI Codex:AI编程助手全面对比
人工智能·ai agent·mcp·peta