【S2ST】PolyVoice: Language Models for Speech to Speech Translation

PolyVoice: Language Models for Speech to Speech Translation

LM-based method in S2ST

contributions

  • Decoder-only model for speech2speech translation.
  • Unit-based audio LM predicts the SoundStream Codec

Overview of PolyVoice

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.

An extra language model for duration prediction.

  • Semantic unit are extracted by mhubert
  • Acoustic units are soundstream codec(residual vector quantizer), using a autoregressive model and a non-autoregressive model.
相关推荐
Mr_Lucifer20 分钟前
「一句话」生成”小红书“式金句海报(CodeFlicker + quote-poster-generator)
人工智能·aigc·visual studio code
冬奇Lab44 分钟前
OpenClaw 深度解析(五):模型与提供商系统
人工智能·开源·源码阅读
冬奇Lab1 小时前
一天一个开源项目(第42篇):OpenFang - 用 Rust 构建的 Agent 操作系统,16 层安全与 7 个自主 Hands
人工智能·rust·开源
IT_陈寒1 小时前
SpringBoot性能飙升200%?这5个隐藏配置你必须知道!
前端·人工智能·后端
yiyu07161 小时前
3分钟搞懂深度学习AI:反向传播:链式法则的归责游戏
人工智能·深度学习
机器之心2 小时前
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
人工智能·openai
机器之心2 小时前
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
人工智能·openai
用户552796026052 小时前
在老版本 HPC 系统上运行 Antigravity(反重力)
人工智能
Axinyp3 小时前
Windows WSL2 安装 OpenClaw 踩坑指南
人工智能