【S2ST】PolyVoice: Language Models for Speech to Speech Translation

PolyVoice: Language Models for Speech to Speech Translation

LM-based method in S2ST

contributions

  • Decoder-only model for speech2speech translation.
  • Unit-based audio LM predicts the SoundStream Codec

Overview of PolyVoice

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.

An extra language model for duration prediction.

  • Semantic unit are extracted by mhubert
  • Acoustic units are soundstream codec(residual vector quantizer), using a autoregressive model and a non-autoregressive model.
相关推荐
招标采购导航网2 分钟前
标讯类目体系的自动演化:招标采购导航网如何根据新出现的行业自动扩展分类
大数据·运维·人工智能
by————组态2 分钟前
Ricon组态实时监控 - 毫秒级数据可视化
大数据·人工智能·物联网·信息可视化·架构·组态
尽兴-4 分钟前
6.1 模型优化:量化 INT4/INT8、GPTQ、AWQ、GGUF
人工智能·gptq·awq·gguf·int4/int8
Cloud_Shy6185 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔(第七章 Item 51)
开发语言·人工智能·笔记·python·学习方法
数字供应链安全产品选型5 分钟前
软件供应链安全专项测评 —— 悬镜安全:代码安全、开源治理与 AI 赋能的全栈王者
人工智能·安全·开源
Xiaofeng36936 分钟前
GPT-5.5+Claude 双模型路由实战:成本与效果平衡的工程架构设计
人工智能·gpt
云和数据.ChenGuang6 分钟前
metrics的解释 人工智能
人工智能·深度学习·学习·机器学习·概率论
zcg194210 分钟前
分类中的样本不平衡问题——Asymmetric Loss
人工智能·分类·数据挖掘
-山中问答-11 分钟前
【智能体工具使用实战04】构建执行沙盒与安全边界
人工智能·安全·智能体·沙盒