Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

  • 2024.8
  • tsinghua

method

  • whisper encoder: whisper small

  • LLM

    • Qwen0.5b init
    • 预测方式:text + 7*audio token, parallel generation的方式预测,delay-step=1----先预测文本token,再预测SNAC 第一级码本,然后序列化的逐渐预测后续码本,也遵循了coarse-to-fine的预测;
  • audio token:SNAC的码本,7级

  • SNAC 的不同级别,码本的预测粒度不同;

data

VoiceAssistant-400K 的数据集