【S2ST】PolyVoice: Language Models for Speech to Speech Translation

PolyVoice: Language Models for Speech to Speech Translation

LM-based method in S2ST

contributions

  • Decoder-only model for speech2speech translation.
  • Unit-based audio LM predicts the SoundStream Codec

Overview of PolyVoice

two LM-based components: a S2UT front-end for translation and a U2S back-end for synthesis.

An extra language model for duration prediction.

  • Semantic unit are extracted by mhubert
  • Acoustic units are soundstream codec(residual vector quantizer), using a autoregressive model and a non-autoregressive model.
相关推荐
小a彤16 分钟前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水30 分钟前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
Upsy-Daisy33 分钟前
AI Agent 项目学习笔记(八):Tool Calling 工具调用机制总览
人工智能·笔记·学习
企学宝39 分钟前
企学宝5月专题课程丨《OpenClaw AI 智能体实战营:从零基础部署到全场景自动化落地》
人工智能·ai·企业培训
冬奇Lab1 小时前
让 AI Agent 更可靠:Harness Engineering 与多 Agent 系统工程实践
人工智能·llm·agent
放下华子我只抽RuiKe51 小时前
React 从入门到生产(四):自定义 Hook
前端·javascript·人工智能·深度学习·react.js·自然语言处理·前端框架
想你依然心痛1 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“文思智脑“——PC端AI智能体沉浸式智能写作工作台
人工智能·ar·harmonyos·ai写作
冬奇Lab1 小时前
一天一个开源项目(第108篇):Andrej Karpathy Skills - 用一个 CLAUDE.md 文件修复 LLM 编码的四个顽疾
人工智能·开源·资讯
涛声依旧-底层原理研究所1 小时前
残差连接与层归一化通俗易懂的详解
人工智能·python·神经网络·transformer