Fun Audio Chat 论文+项目调研

作者：阿里通义实验室（Fun Team）

一句话总结：

Resolution Mismatch （节奏、 采样率 不匹配）：
- 语音的采样率很高，但细节丰富
  - 1秒～= 25 Token， 25Hz, 每40ms一个Token
- 文本的"采样率"很低，但语义密集
  - 一秒钟～= 3～5 个字，即 3Hz～5Hz
- LLM擅长处理文本的节奏，端到端模型适应语音的节奏会带来损失
Computational Costs （算力成本、效率）
- 带来额外的计算负担。本来只需要算3～5次，但音频需要算25次，同时影响训练和推理效率，导致落地问题
Catastrophic Forgetting （灾难性遗忘）
- 将文本LLM基座，转换为多模态大模型的过程（pretrain/posttrain），会影响文本LLM的基础能力
- 如果学习率高会加剧灾难性遗忘；如果学习率太低，训练又会收敛得很慢。

DRSR - Dual-Resolution Speech Representations （双 分辨率 架构）
- 总结：先降低++LLM++ ++部分++ 的音频采样率，再使用而外的++Decode Head++还原为高质量音频
- LLM 部分
  - 现状：文本是 3～5Hz，语音 25Hz。
  - 操作：它把语音的每 5 个小碎片，打包成 1 个大碎片。
    - 每5个speech token的 embedding 分组平均
  - 结果：LLM看到的语音变成 5Hz，与文本接近
- Decode Head
  - SRH - Speech Refined Head
    
    LLM只管大概意思（5Hz），SRH负责精细发音（25Hz）
    - 目标：将5Hz的压缩信号重新还原为25Hz的高质量语音
    - 具体细节：
      - CRQ Transformer模块，自回归迭代n次。（n=Group size）
- 总结：同时解决了
  - 痛点1: Resolution Mismatch （节奏、 采样率 不匹配）
  - 痛点2: Computational Costs （算力成本、效率）
  - 既让LLM处理快，又让声音好听。
Core-Cocktail Training
- 痛点 3：
  - 如果学习率高会加剧灾难性遗忘；如果学习率太低，训练又会收敛得很慢。
- 解决：两阶段的训练策略：
  - 阶段一：用高学习率Fune-tuning，让模型快速学会听说。
  - 模型融合 ：把阶段一的模型参数，和最原始的纯文本大模型参数按比例（1:1）混合。
  - 阶段二：用低学习率再Fune-tuning混合后的模型，稳固效果。

Multi-Task DPO
- Robustness：噪声、多样化语音输入（如不同口音、背景音）
- Instruction-Following：情感、风格、韵律控制
- Audio Understanding：语义识别、摘要、逻辑推理
- Voice Empathy：情感识别、共情响应
Full-Duplex 全双工
- 双流并行 (parallel inference architecture):
  
  "simultaneously handle user speech input and assistant speech output"
  - 同时处理用户语音输入和助手语音输出
- 实时打断检测、轮流说话判定、语义一致性
- 通过一个构造的数据集，包含了各种打断、重叠、语气词（嗯、啊）和复杂的轮流说话逻辑，微调模型实现。

同步生成:

多模态输入，同qwen-audio、qwen-omni系列（whisper encoder）
- 音频部分，提取fbank特征，通过whisper encoder编码为dense表示
- 文本部分，通过tokenizer、embedding loop up转换为dense表示

优势
- 开源比较彻底，全面可训练的语音端到端大模型
- 对语音函数调用、语音指令遵循、语音共情响应都做了特殊优化
劣势
- 语音函数调用只训练了S2T、T2T。也就是说，我们在S2S场景下使用Function call可能受限
- 8B size的模型可能智商需要优化
- LLM部分没有speaker id信息，只靠cosyvoice3的token2wav实现，可能不够还原