小落同学改版计划：消费级GPU跑全套虚拟人ASR+TTS+3DAvatar

前言

从去年年初开始，我就一直陆陆续续的在搞我的小落同学：希望可以把它做成一个数字版的自己。到目前为止，小落同学都是在阿里云的99元一年的VPS上跑的，目标硬件是超低配服务器，所有的模型都只能选轻量级的、纯CPU推理的方案，同时把ASR、TTS、LLM都是用公网上的。

但最近我在思考一个问题：能不能升级一下路线？

如果把目标硬件换成消费级GPU，12GB显存左右（比如 RTX 3060 12GB、RTX 4070 Ti），那能选方案就完全不一样了。不止能跑 ASR、TTS，还能跑 3D 人物avatar（目前的小落同学用的是live2d的技术方案）。

这篇文章就是记录一下，12GB 显存的消费级 GPU 上，怎么配一套完整的小落同学虚拟人方案。

一、硬件准备

1.1 推荐配置

12GB 显存的消费级 GPU，现在有几个选择：

GPU	显存	价格区间	备注
RTX 3060	12GB	二手 1500-2000 元	消费级 12GB 标杆，性价比最高
RTX 4070 Ti	12GB	二手 3000-4000 元	比 3060 强约 40%
Intel Arc B580	12GB	新卡 1200-1500 元	2026 年性价比最高的入门级新卡

我目前的初步想法是：RTX 3060 12GB 是最具性价比的选择。二手市场多，价格稳定，而且 12GB 显存在 LongCat Avatar 的文档里明确写了是"最低配置"。

1.2 显存分配预算

12GB 显存怎么分配？大概是这样：

模块	显存需求	推荐模型
ASR	1-2 GB	FunASR / Paraformer
TTS	1-2 GB	Kokoro
LLM	4-6 GB	7B 模型（需量化到 INT4，或者直接使用公网上的）
Avatar	残余显存	LongCat / LAM

如果 LLM 用 7B 模型量化到 INT4，大概需要 4-6GB。这样 12GB 显存刚好够用，如果LLM用公网接入的话，可以再考虑给小落同学加一些其它的功能，或者给选个更好的ASR、TTS模型。

二、ASR 方案（语音识别）

2.1 推荐：FunASR + Paraformer

之前我们发过一篇 OddASR 的文章，详细介绍了 Paraformer 模型，在我的OddASR项目里也已经完整集成了此方案。简单说：

模型：Paraformer-zh（中文）+ Paraformer-en（英文）
中文效果：准确率基本可认为 100%
显存：~2GB（可以纯CPU跑）
速度：实时
特色：支持流式识别，中文效果远超 Moonshine

bash 复制代码

# 安装 OddASR
pip install oddasr

# 启动服务
oddasr-server

# 打开测试界面
# http://localhost:9002

经过我在小落同学上的实际测试，Paraformer 在中文上的效果远超 Moonshine。Moonshine 虽然参数少、延迟低，但中文识别是弱项。如果你做中文项目，一定要用 Paraformer。

2.2 备选：FunASR-SenseVoice

如果需要更低的延迟和更好的噪声鲁棒性：

模型：SenseVoice
特点：更强的噪声抑制
场景：嘈杂环境下的语音识别

2.3 GPU备选：Whisper Large v3 Turbo

如果需要外语支持：

参数量：809M
显存：~6GB
速度：6x faster than Large v3
语言：99+

2.4 轻量备选：Moonshine（CPU 方案）

如果显存特别紧张，可以切回纯 CPU 方案：

Tiny：27M 参数，26MB，延迟 34ms
特点：树莓派都能跑

三、TTS 方案（语音合成）

3.1 推荐：Kokoro-82M

Kokoro 是我现在 OddTTS 项目已经集成的模型，支持中英混合：

参数量：82M
显存：< 2GB（CPU也能跑）
速度：实时或更快（十年前老笔记本3.5秒合成11字）
音色：8 种内置音色（美英/英英、男/女）
中英混合：通过创建两个 pipeline 实现完美中英混合
License：Apache 2.0，免费商用

python 复制代码

# 只需要简单三行代码搞定语音合成
client = OpenAI(api_key="dummy", base_url="http://localhost:9001/v1")
response = client.audio.speech.create(model="oddtts-1", input="中英混合文本", voice=voice_id)
response.write_to_file("output.mp3")

OddTTS 项目里已经集成了 Kokoro，直接 pip install oddtts 就能用，而且支持 OpenAI 兼容接口。

3.2 备选：CosyVoice 2

如果需要情感控制和更多语言：

参数量：0.5B
延迟：150ms（streaming mode）
语言：中英日韩（包括方言）
特色：情感控制、细粒度控制
注意：需要 GPU

3.3 备选：Fish Speech V1.5

质量最高的开源 TTS 之一：

架构：DualAR
WER：3.5%
语言：多语言

3.4 CPU备选：Edge TTS

如果不想用模型，可以用 Edge 浏览器的在线 TTS：

特点：无需 GPU，纯云端
延迟：依赖网络

四、3D Avatar 方案

这是最关键的部分。之前低配服务器跑不了 avatar，现在 12GB 显存可以了。

4.1 推荐：LongCat Avatar

LongCat 是一个开源的 AI talking head 方案，ComfyUI 工作流：

最低配置：RTX 3060 12GB
生成时间：5 秒视频约 4 分钟（3060）
质量：commercial-grade
特色：
- 完美 lip-sync
- 自然表情
- 无时长限制
- 无限自定义角色
- 完全本地运行

安装和使用需要看 LongCat 官方文档，核心是用 ComfyUI。

4.2 备选：LAM（Large Avatar Model）

阿里 SIGGRAPH 2025 的工作：

特点：一张照片生成 3D 头像
速度：A100 上 562.9 FPS，手机 110+ FPS
渲染：跨平台（Windows、Linux、Mac）
License：Apache 2.0

bash 复制代码

git clone https://github.com/aigc3d/LAM.git
cd LAM
# 需要 CUDA 12.1+

4.3 高配备选：LPM 1.0

目前最强的开源方案，但参数量大：

参数量：17B
延迟：0.35s（3x 快于竞品）
特色：full-duplex 对话、lip-sync、情感、姿态
限制：12GB 显存可能跑不动

4.4 研究方向：AGORA

Google 的论文方案：

技术：3D Gaussian Splatting + FLAME
速度：250fps GPU，9fps CPU
限制：目前主要是研究论文

五、Pipeline 设计

5.1 完整流程

复制代码

用户说话 → ASR（Paraformer） → LLM（7B Qwen） → TTS（Kokoro） → Avatar（LongCat） → 视频输出

5.2 模块可选组合

组合	ASR	TTS	Avatar	显存
轻量版	Paraformer	Kokoro	无	~4GB
标准版	Paraformer	Kokoro	无	~6GB
完整版	Paraformer	Kokoro	LongCat	~10GB

5.3 实际部署建议（中文项目）

ASR 优先级 ：Paraformer > FunASR > Whisper（中文必选 Paraformer）
TTS 优先级 ：Kokoro（已集成） > CosyVoice
Avatar 优先级：LongCat（最成熟）> LAM
LLM：用 vLLM 加载 7B 模型，INT4 量化(拟使用公网上的LLM API)

六、注意事项

6.1 量化是必须的

12GB 跑 7B LLM 必须量化：

bash 复制代码

# INT4 量化示例（vLLM）
llamafactory-cli serve qwen2.5-7b-instruct-awq

6.2 Avatar 批量 vs 实时

LongCat 目前主要是批量生成，不是实时。如果需要实时对话：

可以先生成音频，再用 avatar
或者用 LAM 的实时版本

6.3 中文支持

ASR：Paraformer 中文效果最佳（本文推荐）
TTS：Kokoro 中英混合（本文推荐）
Avatar：LongCat 对语言无限制（只看 lip-sync）

七、总结

12GB 显存的消费级 GPU，也能跑一套完整的虚拟人方案：

模块	推荐方案	显存
ASR	Paraformer-zh	~2GB
TTS	Kokoro-82M	<2GB
LLM	Qwen2.5-7B（INT4）	~4-6GB
Avatar	LongCat Avatar	剩余

核心思路是模型量化 + 合理分配显存。如果不追求 3D avatar，纯 ASR + TTS 可以在更低配的机器上跑；如果要上 3D avatar，12GB 是一个门槛，RTX 3060 12GB 是最具性价比的选择。

本方案的核心优势：

中文支持：ASR 用 Paraformer（实测准确率接近100%），TTS 用 Kokoro（中英混合）
本地运行：全链路本地，无需联网
成本低：RTX 3060 12GB 二手 1500-2000 元

这套方案后续会陆陆续续尝试集成到小落同学上，看看实际效果怎么样。也欢迎有经验的各位一起探讨。

小落同学改版计划：消费级GPU跑全套虚拟人ASR+TTS+3DAvatar

前言

一、硬件准备

1.1 推荐配置

1.2 显存分配预算

二、ASR 方案（语音识别）

2.1 推荐：FunASR + Paraformer

2.2 备选：FunASR-SenseVoice

2.3 GPU备选：Whisper Large v3 Turbo

2.4 轻量备选：Moonshine（CPU 方案）

三、TTS 方案（语音合成）

3.1 推荐：Kokoro-82M

3.2 备选：CosyVoice 2

3.3 备选：Fish Speech V1.5

3.4 CPU备选：Edge TTS

四、3D Avatar 方案

4.1 推荐：LongCat Avatar

4.2 备选：LAM（Large Avatar Model）

4.3 高配备选：LPM 1.0

4.4 研究方向：AGORA

五、Pipeline 设计

5.1 完整流程

5.2 模块可选组合

5.3 实际部署建议（中文项目）

六、注意事项

6.1 量化是必须的

6.2 Avatar 批量 vs 实时

6.3 中文支持

七、总结

相关资源