【S2ST】PolyVoice: Language Models for Speech to Speech Translation

PolyVoice: Language Models for Speech to Speech Translation

LM-based method in S2ST

contributions

  • Decoder-only model for speech2speech translation.
  • Unit-based audio LM predicts the SoundStream Codec

Overview of PolyVoice

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.

An extra language model for duration prediction.

  • Semantic unit are extracted by mhubert
  • Acoustic units are soundstream codec(residual vector quantizer), using a autoregressive model and a non-autoregressive model.
相关推荐
IT_陈寒7 小时前
Python性能翻倍的5个冷门技巧:从GIL逃逸到内存视图的实战优化指南
前端·人工智能·后端
德昂信息dataondemand7 小时前
开好经营月会:如何把数据变成决策的利器?
大数据·人工智能·abi·经营月会
newxtc7 小时前
【 广州产权交易所-注册安全分析报告-无验证方式导致安全隐患】
开发语言·人工智能·selenium·安全·yolo
AIzealot无7 小时前
Qwen3 Embedding报告随笔
人工智能·深度学习·算法·论文·embedding·论文笔记·搜广推
渡我白衣7 小时前
《深度学习进阶(四)——多模态智能:语言、视觉与语音的融合》
人工智能·深度学习
weixin_418007607 小时前
用opencv来识别信用卡的号码 Vs 使用yolo+paddleocr
人工智能·opencv·yolo
爱凤的小光8 小时前
OpenCV的数据类型二
人工智能·opencv
flay8 小时前
Claude Code + Git:AI驱动的版本管理最佳实践
人工智能·ai编程
王一点er8 小时前
为什么LLM中KL散度需要近似计算
人工智能·深度学习
golang学习记8 小时前
Github狂飙8k star,Claude Code 模板:一键搞定项目配置的高级法器
人工智能