人工智能之基于阿里云快速搭建语音合成

人工智能之基于阿里云快速搭建语音合成

需求描述

  1. 基于阿里云搭建语音合成模型,模型名称:iic/speech_sambert-hifigan_tts_zh-cn_16k
  2. 使用上述模型输入一段文字合成语音,模型路径

业务实现

阿里云配置

阿里云配置如下:

代码验证

python 复制代码
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

text = '你好!我是一个人工智能助手,专门帮助用户回答问题、提供信息和解决问题。我可以回答各种主题,包括科学、技术、文学、历史等。\
        如果你有任何问题或者需要帮助的地方,请随时告诉我!'
model_id = 'damo/speech_sambert-hifigan_tts_zh-cn_16k'
sambert_hifigan_tts = pipeline(task=Tasks.text_to_speech, model=model_id)
output = sambert_hifigan_tts(input=text, voice='zhitian_emo')
wav = output[OutputKeys.OUTPUT_WAV]
with open('output.wav', 'wb') as f:
    f.write(wav)

结果展示如下,能够生成语音并且能够进行播放:

从多次搭建的经验来看,建议在搭建模型相关的内容的时候,优先选择阿里云的相关服务,很多东西阿里云的容器云已经提供底层技术,可以很快的使用modelscope提供的操作内容进行快速的模型搭建。

相关推荐
字节跳动数据库7 小时前
文章分享——相似函数处理方法
人工智能·后端·程序员
Bigfish_coding7 小时前
前端转agent-【python】-12 LangChain 入门实战:RAG + LCEL 链式调用
人工智能
程序员cxuan8 小时前
读懂 Claude Code 架构分析系列,第一篇,开始!
人工智能·后端·架构
饼干哥哥8 小时前
扣子3.0测评:我让 Codex 和 Claude Code 住同一个桌面,结果它们打架了!
人工智能·开源·代码规范
Token炼金师9 小时前
IP-Adapter:解耦交叉注意力如何让扩散模型看见图像
人工智能
Bigfish_coding9 小时前
前端转agent-【python】-11 LangGraph 高级特性:时间旅行与人工介入
人工智能
Token炼金师9 小时前
从safetensors到像素:ComfyUI Checkpoint加载机制的底层拆解
人工智能
AI闲人9 小时前
AI 写代码越来越快,为什么 Code Review 反而更慢了?
人工智能·code review·ai 编程
武子康9 小时前
调查研究-202 SGLang 深度解析:为什么大模型推理框架不只是“把模型跑起来“
人工智能·openai·agent
我是大卫9 小时前
Trae 读取 agents.md 并驱动 AI 完整底层原理
人工智能