想做自媒体数字人访谈视频,在百度 AI Studio 上安装 OpenAvatarChat,显存要求

想做自媒体数字人访谈视频,在百度 AI Studio 上安装 OpenAvatarChat,显存要求

在百度 AI Studio 上安装 OpenAvatarChat

百度 AI Studio 是免费 GPU 云环境,但有几个坑需要绕过去。下面一步步来。

⚠️ 核心难点预判

难点 原因 解决方案

GitHub 访问慢/超时 国内网络限制 用 ghproxy 镜像

HuggingFace 模型下载不了 国内被墙 用 hf-mirror

Gradio WebUI 无法访问 AI Studio 端口不直接暴露 用 AI Studio 的端口代理

子模块拉取失败 同样是网络问题 手动处理子模块

📋 第一步:创建 AI Studio 项目

打开 aistudio.baidu.com

新建项目 → 选择 Notebook 模式

运行环境选 GPU(V100 或 A100 都行)

进入 Notebook 后,打开 终端(Terminal)

📋 第二步:基础环境准备

在终端中执行:

1. 检查 GPU 和 CUDA

nvidia-smi

python --version # AI Studio 一般是 Python 3.10+

2. 安装 uv 包管理器

curl -LsSf https://astral.sh/uv/install.sh | sh

source ~/.bashrc # 让 uv 命令生效

uv --version # 验证

3. 设置 HuggingFace 镜像(关键!)

export HF_ENDPOINT=https://hf-mirror.com

写入 bashrc 永久生效

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

📋 第三步:克隆项目(用国内镜像加速)

用 ghproxy 加速克隆

git clone https://ghproxy.com/https://github.com/HumanAIGC-Engineering/OpenAvatarChat.git

cd OpenAvatarChat

子模块单独处理(直接递归可能失败)

先初始化

git submodule init

查看有哪些子模块

git config --file .gitmodules --get-regexp url

如果子模块拉取也慢,手动改用镜像:

把子模块的 github 地址替换为 ghproxy 地址

sed -i 's|https://github.com/\|https://ghproxy.com/https://github.com/\|g' .gitmodules

然后更新并拉取

git submodule update --init --recursive

如果 sed 替换后子模块还是失败,就手动一个个克隆:

查看需要哪些子模块

cat .gitmodules

假设子模块在 third_party/xxx,手动克隆

git clone https://ghproxy.com/https://github.com/xxx/xxx.git third_party/xxx

📋 第四步:创建虚拟环境 + 安装依赖

用 uv 创建虚拟环境(指定 Python 版本)

uv venv --python 3.11.11

source .venv/bin/activate

选择配置安装依赖(Edge TTS + LiteAvatar 方案最省事)

uv run install.py --uv --config config/chat_with_openai_compatible_edge_tts.yaml

如果 install.py 报错,看错误信息逐个解决。常见问题:

如果某个包安装失败,尝试单独装

uv pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple

如果是 PyTorch 相关问题,确认 CUDA 版本后重装

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

📋 第五步:下载 LiteAvatar 模型

确保镜像变量还在

export HF_ENDPOINT=https://hf-mirror.com

运行下载脚本

bash scripts/download_liteavatar_weights.sh

如果脚本报错,手动下载:

在 Notebook 里新建一个 cell 执行

from huggingface_hub import snapshot_download

import os

os.environ"HF_ENDPOINT" = "https://hf-mirror.com"

snapshot_download(

repo_id="HumanAIGC-Engineering/LiteAvatar",

local_dir="./weights/liteavatar",

local_dir_use_symlinks=False

)

print("下载完成")

📋 第六步:配置 LLM API Key

你需要一个 OpenAI 兼容的 API,推荐用免费的:

方案A:百度千帆(AI Studio 自家,免费额度)

修改配置文件

vim config/chat_with_openai_compatible_edge_tts.yaml

找到 LLM 部分,改成:

llm:

api_base: "https://qianfan.baidubce.com/v1" # 或千帆的兼容端点

api_key: "你的千帆API_KEY"

model: "ernie-4.0-8k" # 或其他免费模型

方案B:其他免费 API

平台 免费额度 兼容性

百度千帆 有免费额度 OpenAI 兼容

硅基流动 (SiliconFlow) 有免费额度 OpenAI 兼容

DeepSeek 有免费额度 OpenAI 兼容

Groq 免费额度大 OpenAI 兼容

📋 第七步:启动服务(关键:端口映射)

AI Studio 的 Notebook 不能直接访问 localhost:7860,需要用它的端口代理:

source .venv/bin/activate

启动 OpenAvatarChat

uv run src/demo.py --config config/chat_with_openai_compatible_edge_tts.yaml --server_name 0.0.0.0 --server_port 7860

在 AI Studio 中访问 WebUI:

AI Studio 提供了两种方式访问服务:

方式1:直接点击生成的链接

启动后终端会显示类似 https://xxx.aistudio.baidu.com/proxy/7860 的链接

点击即可打开

方式2:手动设置端口代理

如果 AI Studio 有端口转发按钮,添加 7860 端口

或者查看 AI Studio 的"自定义服务"入口

💡 不同版本的 AI Studio 界面不同,找 "自定义服务" 或 "端口映射" 按钮,把 7860 映射出来。

📋 第八步:改成访谈模式

启动成功后,修改 LLM 的 system prompt,让它输出访谈格式:

在配置文件中找到 system_prompt 相关字段,改成:

system_prompt: |

你是一个访谈节目的主持人。请按以下格式输出:

主持人:你的提问

嘉宾:嘉宾的回答

每次只输出一轮对话,等待用户(嘉宾)回应后再继续。

🔧 常见报错及解决

报错1:git submodule update 失败

跳过子模块,手动处理

git submodule deinit -f .

rm -rf .git/modules/

然后手动克隆需要的子模块

报错2:uv: command not found

source ~/.bashrc

source ~/.cargo/env

报错3:CUDA out of memory

换成 CPU 模式(慢但能跑)

export CUDA_VISIBLE_DEVICES=""

或者选更高显存的 GPU 实例

报错4:HuggingFace 下载超时

确认镜像设置

echo $HF_ENDPOINT

应该输出 https://hf-mirror.com

如果不是,重新设置

export HF_ENDPOINT=https://hf-mirror.com

报错5:端口访问不了

在 Notebook 里测试服务是否启动

import requests

resp = requests.get("http://localhost:7860")
print(resp.status_code) # 应该是 200
📊 整体时间估算
步骤 预计时间
克隆项目 5-10 分钟
安装依赖 15-30 分钟
下载模型 10-20 分钟
配置 + 调试 20-30 分钟
总计 约 1-1.5 小时
总结:核心就是三个坑要绕------GitHub 用 ghproxy、HuggingFace 用 hf-mirror、WebUI 用 AI Studio 端口映射。把这三个搞通,剩下的按官方文档走就行。显存要求要看你选哪种"数字人"和是否用本地大模型,差别非常大。最省显存的组合:LiteAvatar + 云端 LLM + Edge TTS / CosyVoice API,官方实测只要 3~6GB 显存就能跑;如果用本地未量化的 MiniCPM-o,就要 20GB+ 显存。

1. 官方给的"硬指标"

项目文档里写得很清楚:

  • 支持 CUDA 的 NVIDIA GPU
  • 未量化 MiniCPM-o 模型:需要 20GB 以上显存
  • int4 量化版 MiniCPM-o:需要 10GB 以下显存
  • 数字人推理支持 CPU/GPU ,显存不够可以靠 CPU 兜底
    另外一篇低显存实测文章:用 SenseVoice + LLM API + CosyVoice API 跑 LiteAvatar / LAM,在 RTX 3060 6G 上:
  • LAM 数字人:约 3.1GB 显存
  • LiteAvatar 数字人:约 5.3GB 显存

2. 按你选择的组件看显存需求

2.1 只看"数字人"这一块(不含本地 LLM)

数字人类型 典型显存占用(单路) 说明
LiteAvatar(2D) 约 3~6GB 官方说 CPU 也能 30fps,GPU 大概 3G 起步,4~6G 更舒服
LAM(3D 高斯泼溅) 约 3GB 左右 实测比 LiteAvatar 略省一点,但和场景/分辨率强相关
MuseTalk(口型同步) 一般 4~8GB 就能跑;8GB 以上更稳 它是视频驱动,分辨率/batch_size 影响很大

如果你只想要"数字人画面",4GB 显存 + 云端 API 基本够玩,6GB 以上更舒服。


2.2 加上本地大模型(MiniCPM-o)

这是真正吃显存的大头:

模型方案 显存需求 适合什么显卡
MiniCPM-o 未量化 20GB+ 3090/4090 这种 24G 卡,或 A100 40G
MiniCPM-o int4 量化 10GB 以下 3060 12G、3060Ti 8G 都可以尝试
完全用云端 LLM API 数字人那点 3~6G 就够 1060 6G / 3050 4G 都能跑 LiteAvatar
所以:如果显存 ≤8GB,基本不要想本地跑完整 MiniCPM-o,老实用云端 LLM API。

3. 不同硬件档位怎么选配置

结合官方和社区实测,可以这么选:

3.1 4GB 显存(如 GTX 1650 / 3050 4G)

  • 推荐配置:
    chat_with_openai_compatible_edge_tts.yaml
    chat_with_openai_compatible_bailian_cosyvoice.yaml
  • 特点:
    • LLM:云端 API(千帆 / 文心 / DeepSeek 等)
    • TTS:Edge TTS 免费 或 CosyVoice API
    • 数字人:LiteAvatar,可设 use_gpu: true 但要降分辨率/帧率
  • 显存占用:
    官方实测类似配置在 6G 卡上约 3~5G,4G 卡建议:
    • 分辨率:512×512 或更低
    • fps:20~25
    • 不开其他大模型

3.2 6~8GB 显存(如 3060 6G / 3060Ti 8G)

  • 推荐配置:
    • 想省钱:chat_with_openai_compatible_edge_tts.yaml
    • 想音质好一点:chat_with_openai_compatible_bailian_cosyvoice.yaml + CosyVoice API
  • 显存规划:
    • LiteAvatar / LAM:3~6G
    • 再开个本地量化小模型勉强能塞,但会很紧张,建议还是云端 LLM
  • 可以尝试:
    • MuseTalk:8GB 显存是官方"推荐起步线"
    • 但要注意分辨率、batch_size 都要调小

3.3 10~12GB 显存(如 3080 10G / 3080 12G)

  • 可以玩:
    • 本地量化 MiniCPM-o(int4):约 10G 以下显存
    • LiteAvatar / MuseTalk 同时跑,基本没问题
  • 推荐配置:
    • chat_with_minicpm.yaml(本地量化模型)
    • 或者云端 LLM + MuseTalk 做更酷的口型同步

3.4 16GB 及以上显存(如 3090 / 4090 / A100)

  • 想怎么玩怎么玩:
    • 未量化 MiniCPM-o + LiteAvatar / LAM + MuseTalk 都能上
    • 多路并发数字人客服(每路大约 3G 左右,自己算一下能开几路)

4. 实用显存优化技巧

  1. 用云端 LLM 替代本地 MiniCPM-o
    这是降显存最狠的一招:从 20G+ 直接掉到 3~6G。
  2. LiteAvatar / MuseTalk 参数调低
    • 分辨率:从 1024×1024 降到 512×512
    • fps:从 30 降到 20~25
    • batch_size:MuseTalk 推理设为 1
  3. 开启 FP16 / 半精度
    LiteAvatar 官方实测 FP16 可以把显存再砍掉一截,RTX 3060 也能更流畅。
  4. 多会话时注意并发数
    OpenAvatarChat 支持多路对话,每路 LiteAvatar 大约 3G 显存。
    • 6G 卡:建议 1~2 路
    • 8G 卡:2~3 路
    • 12G+:4 路以上没问题

5. 一句话总结

  • 只想跑 LiteAvatar 数字人 + 云端 API:4GB 显存就能玩,6GB 以上更舒服。
  • 想本地跑 MiniCPM-o:至少 10GB 显存(int4 量化),20GB+ 才敢用未量化版。
  • 显存不够就:云端 LLM + Edge TTS + LiteAvatar,这是最低门槛组合。
    如果你告诉我你现在的显卡型号(比如 3060 8G / 4060 8G / 3090 24G 之类),我可以直接帮你选一个具体配置文件和推荐参数。
相关推荐
烟雨江南7851 小时前
水泥回转窑烧成车间大功率冷却风机强粉尘低频共振噪底:基于“灵声智库”端侧自适应谱减降噪与信创工控芯片离线 ASR 安全控制系统
人工智能·安全·webrtc·语音识别·ai质检
DogDaoDao1 小时前
【第 04 篇】列表与元组 —— 序列类型核心详解
人工智能·python·深度学习·神经网络·机器学习·conda·numpy
米核AI易山1 小时前
扣子工作流错误处理:用条件分支打造不崩的自动化流水线
人工智能·深度学习·自动化·coze·扣子工作流·米核ai易山
继续商行1 小时前
Go/Rust 系统编程与并发原语深度剖析
人工智能
码语智行1 小时前
Codex 新手安装教程(完全小白版)
java·人工智能
平原20181 小时前
2026 主流 AI 视频 API 渠道价格对比:Seedance 2.0 哪家最便宜
大数据·人工智能
薛定猫AI1 小时前
【深度解析】从无状态 ChatBot 到有状态 AI Companion:大模型记忆系统原理与工程落地
大数据·人工智能·gpt
泠不丁1 小时前
React/Next.js 前端开发与治愈系 UI 设计
人工智能
码语智行1 小时前
Claude Code 免费白嫖 Qwen3.6,Token 无限量
人工智能