小落同学改版计划:消费级GPU跑全套虚拟人ASR+TTS+3DAvatar

前言

从去年年初开始,我就一直陆陆续续的在搞我的小落同学:希望可以把它做成一个数字版的自己。到目前为止,小落同学都是在阿里云的99元一年的VPS上跑的,目标硬件是超低配服务器,所有的模型都只能选轻量级的、纯CPU推理的方案,同时把ASR、TTS、LLM都是用公网上的。

但最近我在思考一个问题:能不能升级一下路线?

如果把目标硬件换成消费级GPU,12GB显存左右(比如 RTX 3060 12GB、RTX 4070 Ti),那能选方案就完全不一样了。不止能跑 ASR、TTS,还能跑 3D 人物avatar(目前的小落同学用的是live2d的技术方案)。

这篇文章就是记录一下,12GB 显存的消费级 GPU 上,怎么配一套完整的小落同学虚拟人方案。


一、硬件准备

1.1 推荐配置

12GB 显存的消费级 GPU,现在有几个选择:

GPU 显存 价格区间 备注
RTX 3060 12GB 二手 1500-2000 元 消费级 12GB 标杆,性价比最高
RTX 4070 Ti 12GB 二手 3000-4000 元 比 3060 强约 40%
Intel Arc B580 12GB 新卡 1200-1500 元 2026 年性价比最高的入门级新卡

我目前的初步想法是:RTX 3060 12GB 是最具性价比的选择。二手市场多,价格稳定,而且 12GB 显存在 LongCat Avatar 的文档里明确写了是"最低配置"。

1.2 显存分配预算

12GB 显存怎么分配?大概是这样:

模块 显存需求 推荐模型
ASR 1-2 GB FunASR / Paraformer
TTS 1-2 GB Kokoro
LLM 4-6 GB 7B 模型(需量化到 INT4,或者直接使用公网上的)
Avatar 残余显存 LongCat / LAM

如果 LLM 用 7B 模型量化到 INT4,大概需要 4-6GB。这样 12GB 显存刚好够用,如果LLM用公网接入的话,可以再考虑给小落同学加一些其它的功能,或者给选个更好的ASR、TTS模型。


二、ASR 方案(语音识别)

2.1 推荐:FunASR + Paraformer

之前我们发过一篇 OddASR 的文章,详细介绍了 Paraformer 模型,在我的OddASR项目里也已经完整集成了此方案。简单说:

  • 模型:Paraformer-zh(中文)+ Paraformer-en(英文)
  • 中文效果:准确率基本可认为 100%
  • 显存:~2GB(可以纯CPU跑)
  • 速度:实时
  • 特色:支持流式识别,中文效果远超 Moonshine
bash 复制代码
# 安装 OddASR
pip install oddasr

# 启动服务
oddasr-server

# 打开测试界面
# http://localhost:9002

经过我在小落同学上的实际测试,Paraformer 在中文上的效果远超 Moonshine。Moonshine 虽然参数少、延迟低,但中文识别是弱项。如果你做中文项目,一定要用 Paraformer

2.2 备选:FunASR-SenseVoice

如果需要更低的延迟和更好的噪声鲁棒性:

  • 模型:SenseVoice
  • 特点:更强的噪声抑制
  • 场景:嘈杂环境下的语音识别

2.3 GPU备选:Whisper Large v3 Turbo

如果需要外语支持:

  • 参数量:809M
  • 显存:~6GB
  • 速度:6x faster than Large v3
  • 语言:99+

2.4 轻量备选:Moonshine(CPU 方案)

如果显存特别紧张,可以切回纯 CPU 方案:

  • Tiny:27M 参数,26MB,延迟 34ms
  • 特点:树莓派都能跑

三、TTS 方案(语音合成)

3.1 推荐:Kokoro-82M

Kokoro 是我现在 OddTTS 项目已经集成的模型,支持中英混合:

  • 参数量:82M
  • 显存:< 2GB(CPU也能跑)
  • 速度:实时或更快(十年前老笔记本3.5秒合成11字)
  • 音色:8 种内置音色(美英/英英、男/女)
  • 中英混合:通过创建两个 pipeline 实现完美中英混合
  • License:Apache 2.0,免费商用
python 复制代码
# 只需要简单三行代码搞定语音合成
client = OpenAI(api_key="dummy", base_url="http://localhost:9001/v1")
response = client.audio.speech.create(model="oddtts-1", input="中英混合文本", voice=voice_id)
response.write_to_file("output.mp3")

OddTTS 项目里已经集成了 Kokoro,直接 pip install oddtts 就能用,而且支持 OpenAI 兼容接口。

3.2 备选:CosyVoice 2

如果需要情感控制和更多语言:

  • 参数量:0.5B
  • 延迟:150ms(streaming mode)
  • 语言:中英日韩(包括方言)
  • 特色:情感控制、细粒度控制
  • 注意:需要 GPU

3.3 备选:Fish Speech V1.5

质量最高的开源 TTS 之一:

  • 架构:DualAR
  • WER:3.5%
  • 语言:多语言

3.4 CPU备选:Edge TTS

如果不想用模型,可以用 Edge 浏览器的在线 TTS:

  • 特点:无需 GPU,纯云端
  • 延迟:依赖网络

四、3D Avatar 方案

这是最关键的部分。之前低配服务器跑不了 avatar,现在 12GB 显存可以了。

4.1 推荐:LongCat Avatar

LongCat 是一个开源的 AI talking head 方案,ComfyUI 工作流:

  • 最低配置:RTX 3060 12GB
  • 生成时间:5 秒视频约 4 分钟(3060)
  • 质量:commercial-grade
  • 特色
    • 完美 lip-sync
    • 自然表情
    • 无时长限制
    • 无限自定义角色
    • 完全本地运行

安装和使用需要看 LongCat 官方文档,核心是用 ComfyUI。

4.2 备选:LAM(Large Avatar Model)

阿里 SIGGRAPH 2025 的工作:

  • 特点:一张照片生成 3D 头像
  • 速度:A100 上 562.9 FPS,手机 110+ FPS
  • 渲染:跨平台(Windows、Linux、Mac)
  • License:Apache 2.0
bash 复制代码
git clone https://github.com/aigc3d/LAM.git
cd LAM
# 需要 CUDA 12.1+

4.3 高配备选:LPM 1.0

目前最强的开源方案,但参数量大:

  • 参数量:17B
  • 延迟:0.35s(3x 快于竞品)
  • 特色:full-duplex 对话、lip-sync、情感、姿态
  • 限制:12GB 显存可能跑不动

4.4 研究方向:AGORA

Google 的论文方案:

  • 技术:3D Gaussian Splatting + FLAME
  • 速度:250fps GPU,9fps CPU
  • 限制:目前主要是研究论文

五、Pipeline 设计

5.1 完整流程

复制代码
用户说话 → ASR(Paraformer) → LLM(7B Qwen) → TTS(Kokoro) → Avatar(LongCat) → 视频输出

5.2 模块可选组合

组合 ASR TTS Avatar 显存
轻量版 Paraformer Kokoro ~4GB
标准版 Paraformer Kokoro ~6GB
完整版 Paraformer Kokoro LongCat ~10GB

5.3 实际部署建议(中文项目)

  1. ASR 优先级Paraformer > FunASR > Whisper(中文必选 Paraformer)
  2. TTS 优先级Kokoro(已集成) > CosyVoice
  3. Avatar 优先级:LongCat(最成熟)> LAM
  4. LLM:用 vLLM 加载 7B 模型,INT4 量化(拟使用公网上的LLM API)

六、注意事项

6.1 量化是必须的

12GB 跑 7B LLM 必须量化:

bash 复制代码
# INT4 量化示例(vLLM)
llamafactory-cli serve qwen2.5-7b-instruct-awq

6.2 Avatar 批量 vs 实时

LongCat 目前主要是批量生成,不是实时。如果需要实时对话:

  • 可以先生成音频,再用 avatar
  • 或者用 LAM 的实时版本

6.3 中文支持

  • ASR:Paraformer 中文效果最佳(本文推荐)
  • TTS:Kokoro 中英混合(本文推荐)
  • Avatar:LongCat 对语言无限制(只看 lip-sync)

七、总结

12GB 显存的消费级 GPU,也能跑一套完整的虚拟人方案:

模块 推荐方案 显存
ASR Paraformer-zh ~2GB
TTS Kokoro-82M <2GB
LLM Qwen2.5-7B(INT4) ~4-6GB
Avatar LongCat Avatar 剩余

核心思路是模型量化 + 合理分配显存。如果不追求 3D avatar,纯 ASR + TTS 可以在更低配的机器上跑;如果要上 3D avatar,12GB 是一个门槛,RTX 3060 12GB 是最具性价比的选择。

本方案的核心优势

  • 中文支持:ASR 用 Paraformer(实测准确率接近100%),TTS 用 Kokoro(中英混合)
  • 本地运行:全链路本地,无需联网
  • 成本低:RTX 3060 12GB 二手 1500-2000 元

这套方案后续会陆陆续续尝试集成到小落同学上,看看实际效果怎么样。也欢迎有经验的各位一起探讨。


相关资源


相关推荐
iwgh1 天前
OddAsr更新:将默认模型从moonshine改回paraformer
asr·paraformer·语音转写·stt·moonshine·oddasr
iwgh15 天前
OddTTS更新:十年前老笔记本以纯CPU跑中英混合语音合成
语音合成·oddtts·轻量级tts
iwgh21 天前
OddTTS:加入Kokoro语音合成支持,完全纯本地CPU跑语音合成
语音合成·kokoro·oddtts
程序员老奥3 个月前
开源全能意图、指令识别框架 OddAgent 更新
意图识别·oddagent
程序员老奥3 个月前
OddAgent:一个通用的意图、指令识别框架
智能体·意图识别·oddagent
ZEGO即构开发者8 个月前
简单4步,快速搭建数字人实时视频通话功能
实时互动·webrtc·实时音视频·数字人·即时通讯·rtc·视频聊天·虚拟人·社交·音视频技术·ai虚拟人·ai语音驱动·android多人语音·java多人语音通话·zego·泛娱乐·社交泛娱乐·视频美颜·虚拟形象sdk·自动聊天机器人
知来者逆2 年前
AVI-Talking——能通过语音生成很自然的 3D 说话面孔
人工智能·深度学习·数字人·虚拟现实·虚拟人·3d数字人
政安晨2 年前
政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成
人工智能·深度学习·神经网络·aigc·虚拟人·图生视频·musev
陈小峰_iefreer2 年前
适用于智慧城市、智慧文旅等在线场景的轻量级3D数字人引擎MyAvatar简介
人工智能·智慧城市·元宇宙·虚拟人