CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载


近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoiceCosyVoice
今天分享的这个是v3ucn大佬优化过的升级版,新增自定义音色保存,优化长文本生成以及修复上个版本错误提示的bug。
一键包更新地址: CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载
CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。
仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。
而且CosyVoice支持以富文本或自然语言的形式,对生成语音的情感、韵律进行细粒度的控制,生音频在情感表现力上得到明显提升。
研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct,可满足不同场景下的使用需求。CosyVoice-300M本身具备一定从文本内容中推断情感的能力,经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高,具备更强的情感控制能力。
CosyVoice很好地建模了合成文本中的语义信息,达到了与人类发音人相当的水平。此外,通过对合成音频进行重打分,能够进一步降低识别的错误率,甚至在内容一致性和说话人相似度上超越人类。
0710优化版更新内容:

1、新增手动选择参考音频列表

将需要克隆的参考音频拷贝到软件根目录下的 "参考音频" 文件夹,并将文件名改名为音频说话内容,如下图

点击"刷新参考音频"即可。
2、自定义音色保存

克隆音色生成后,在下方输入音色名称,保存即可。如上图。

比如我们将克隆后的"大幂幂"的音色保存下来,这里输入 大幂幂

保存后,点这里的"刷新新增音色"

即可在新增音色里找到我们刚才克隆的"大幂幂"的音色

后期需要使用这个音色生成音频,就直接在这里选择"大幂幂"即可。

相关推荐
机器人零零壹7 小时前
专访越擎科技创始人: 外骨骼的设计与仿真该如何入门
人工智能·具身智能·机器人仿真·离线编程·irobotcam·人形机器人设计
Cha0DD8 小时前
【由浅入深探究langchain】第二十集-SQL Agent+Human-in-the-loop
人工智能·python·ai·langchain
Cha0DD8 小时前
【由浅入深探究langchain】第十九集-官方的SQL Agent示例
人工智能·python·ai·langchain
2601_949221038 小时前
Splashtop赋能企业级远程办公全场景安全连接成选型优选
运维·人工智能·安全
阿拉斯攀登8 小时前
YOLO 视觉检测全栈核心名词指南:从训练调参到边缘部署,商用落地必懂
人工智能·yolo·计算机视觉·视觉检测·bytetrack
AAAAA92408 小时前
2026年车载机器人行业:技术突破与生态融合加速发展
人工智能·机器人·制造
科研实践课堂(小绿书)9 小时前
机器学习在智能水泥基复合材料中的应用与实践
人工智能·机器学习·复合材料·水泥基·混凝土
AI医影跨模态组学9 小时前
Hepatology(IF=16.8)复旦大学附属中山医院孙惠川、徐彬等团队:基于MRI影像组学动态变化预测HCC免疫治疗后病理完全缓解
人工智能
百万蹄蹄向前冲9 小时前
让TypeScript 再次伟大:愚人节前夜Claude Code意外开源与OpenClaw小龙虾打造 AI 原生开发新纪元
人工智能·typescript·node.js
墨韵流芳9 小时前
CCF-CSP第41次认证第三题——进程通信
c++·人工智能·算法·机器学习·csp·ccf