LLaMA-Omni 2:基于 LLM 的自回归流语音合成实时口语聊天机器人

LLaMA-Omni 2 是基于 Qwen2.5-0.5B/1.5B/3B/7B/14B/32B-Instruct 模型的一系列语音语言模型。与 LLaMA-Omni 类似,它可以同时生成文本和语音应答,从而实现高质量、低延迟的语音交互。通过新引入的流式自回归语音解码器,LLaMA-Omni 2 与 LLaMA-Omni 相比实现了更高的语音质量。

安装

bash 复制代码
git clone https://github.com/ictnlp/LLaMA-Omni2
cd LLaMA-Omni2

conda create -n llama-omni2 python=3.10
conda activate llama-omni2
pip install -e .

快手上手

下载Whisper large v3

bash 复制代码
import whisper
model = whisper.load_model("large-v3", download_root="models/speech_encoder/")

下载 CosyVoice 2

bash 复制代码
huggingface-cli download --resume-download ICTNLP/cosy2_decoder --local-dir models/cosy2_decoder

从 Hugging Face 下载 LLaMA-Omni2 系列型号。LLaMA-Omni2-0.5B/1.5B/3B/7B/14B 仅支持英文,而 LLaMA-Omni2-0.5B/1.5B/3B/7B/14B/32B-Bilingual 支持中英文

LLaMA-Omni2 LLaMA-Omni2-Bilingual
🤗 LLaMA-Omni2-0.5B 🤗 LLaMA-Omni2-0.5B-Bilingual
🤗 LLaMA-Omni2-1.5B 🤗 LLaMA-Omni2-1.5B-Bilingual
🤗 LLaMA-Omni2-3B 🤗 LLaMA-Omni2-3B-Bilingual
🤗 LLaMA-Omni2-7B 🤗 LLaMA-Omni2-7B-Bilingual
🤗 LLaMA-Omni2-14B 🤗 LLaMA-Omni2-14B-Bilingual
- 🤗 LLaMA-Omni2-32B-Bilingual

Gradio

controller

bash 复制代码
python -m llama_omni2.serve.controller --host 0.0.0.0 --port 10000

server

bash 复制代码
python -m llama_omni2.serve.gradio_web_server --controller http://localhost:10000 --port 8000 --vocoder-dir models/cosy2_decoder

worker

bash 复制代码
python -m llama_omni2.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path models/$model_name --model-name $model_name

访问 http://localhost:8000/ 并与 LLaMA-Omni2 互动!

本地推理

bash 复制代码
output_dir=examples/$model_name
mkdir -p $output_dir

python llama_omni2/inference/run_llama_omni2.py \
    --model_path models/$model_name \
    --question_file examples/questions.json \
    --answer_file $output_dir/answers.jsonl \
    --temperature 0 \
    --s2s

python llama_omni2/inference/run_cosy2_decoder.py \
    --input-path $output_dir/answers.jsonl \
    --output-dir $output_dir/wav \
    --lang en

鸣谢

  • CosyVoice 2:我们使用 CosyVoice 2 的预训练语音标记器、语流匹配模型和声码器。
  • SLAM-LLM:我们借用了语音编码器和语音适配器的一些代码。
相关推荐
hans汉斯几秒前
国产生成式人工智能解决物理问题能力研究——以“智谱AI”、“讯飞星火认知大模型”、“天工”、“360智脑”、“文心一言”为例
大数据·人工智能·算法·aigc·文心一言·汉斯出版社·天工
这是个栗子几秒前
AI辅助编程(一) - ChatGPT
前端·vue.js·人工智能·chatgpt
大学生小郑1 分钟前
影像测评知识分享
图像处理·音视频·视频
枫叶丹42 分钟前
【Qt开发】Qt系统(十一)-> Qt 音频
c语言·开发语言·c++·qt·音视频
发哥来了2 分钟前
主流AI视频生成商用方案选型评测:关键能力与成本效益分析
大数据·人工智能·音视频
机器学习之心5 分钟前
金融时间序列预测全流程框架:从SHAP特征选择到智能算法优化深度学习预测模型,核心三章实验已完成,尚未发表,期待有缘人!
人工智能·深度学习·金融
CoderJia程序员甲7 分钟前
GitHub 热榜项目 - 日榜(2026-02-01)
人工智能·ai·大模型·github·ai教程
渡我白衣10 分钟前
【MySQL基础】(2):数据库基础概念
数据库·人工智能·深度学习·神经网络·mysql·机器学习·自然语言处理
新缸中之脑12 分钟前
将CodeBERTa压缩到10KB以下
人工智能
Faker66363aaa13 分钟前
鲶鱼目标检测与识别:基于fovea_r50_fpn_gn-head-align模型的COCO数据集训练_1
人工智能·目标检测·计算机视觉