【S2ST】PolyVoice: Language Models for Speech to Speech Translation

PolyVoice: Language Models for Speech to Speech Translation

LM-based method in S2ST

contributions

  • Decoder-only model for speech2speech translation.
  • Unit-based audio LM predicts the SoundStream Codec

Overview of PolyVoice

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.

An extra language model for duration prediction.

  • Semantic unit are extracted by mhubert
  • Acoustic units are soundstream codec(residual vector quantizer), using a autoregressive model and a non-autoregressive model.
相关推荐
musicml7 分钟前
从 Vibe Coding 到 SDD(规范驱动开发):AI 原生时代的软件工程化实践
人工智能·驱动开发·软件工程
Deepoch11 分钟前
Deepoc具身模型:重塑无人机无遥控器作业
人工智能·科技·无人机·具身模型·deepoc
i建模13 分钟前
Claude Code在编程之外的能力
人工智能
言之。15 分钟前
用Claude Code搞定产品上线
人工智能
HIT_Weston18 分钟前
31、【Agent】【OpenCode】模型配置(OpenRouter&OpenCode)
人工智能·agent·opencode
Coder个人博客30 分钟前
06_apollo_third_party子模块整体软件架构深入分析文档
linux·人工智能·架构
uzong31 分钟前
ClaudeCode 入门详细教程,手把手带你Vibe Coding
前端·人工智能
rebekk33 分钟前
PyTorch Dispatcher介绍
人工智能·pytorch·python
AI浩34 分钟前
第 11 章:多代理协作与编排 —— 从“单兵作战”到“集团军协同”
人工智能
一休哥※44 分钟前
ClawTeam 完整使用教程:用 AI 多智能体团队自动完成复杂任务
大数据·人工智能·elasticsearch