可商用,可离线运行,可API接口调用的开源AI数字人项目Heygem,喂饭级安装教程

前言

Heygem 是一款开源项目,致力于发挥你电脑硬件的全部潜力,让你无需依赖云端,也能在本地高效运行各类开源AI数字人模型。无论是 AI 语音对话、虚拟主播,还是数字人驱动引擎,Heygem 通过底层性能调度与资源管理优化,带来轻量、易用、强大的本地 AI 体验。

特点:

  • 可商用:但用户量超过10万或年营收达1000万美元以上的企业需签署商业许可协议。
  • 可以断网使用:程中要下载Docker服务和客户端,需要联网,安装后可断网使用。
  • 支持Windows和Linux桌面系统,不支持Mac系统。
  • 支持本地Api接口调用,可见文末补充模块。

Hygem 部署教程

一、准备工作:检查自己的电脑配置

硬盘空间要求

  • 【必须】C盘 :用于存储服务镜像文件,建议至少预留 100GB 空间。如果空间不足,可以在安装 Docker 后指定其他盘符,但部分情况可能强制使用 C 盘。
  • 【必须】D盘 :必须存在!用于存储数字人素材和作品数据,建议预留 30GB 以上空间。

系统要求

  • 操作系统需为 Windows 10(版本号 19042.1526) 或更高。

推荐配置(建议越高越好)

硬件 推荐配置
CPU Intel i5-13400F(或同等性能)
内存 至少 32GB(低于32G容易报错)
显卡 NVIDIA RTX 4070(RTX 30/40 系列优先)

💡 小编实测配置:12700 + RTX 3070,运行效果良好!

显卡驱动要求

  • 必须使用 NVIDIA 独立显卡,并确保驱动为最新版。
  • NVIDIA的50系显卡正在适配中。
  • 暂不支持 AMD 显卡。

二、开始安装,跟着我的步骤一步一步来

这里面的步骤

第一步:安装Node.js(数字人软件界面基础)
1、前往官网下载安装最新版 Node.js:

🔗 Node.js 官网

https://nodejs.org/zh-cn

2、下载并安装

下载完成之后,双击安装

tips:过程全程点击"Next"即可。

3、验证安装是否成功

使用CMD打开命令提示符,输入以下命令查询

复制代码
node -v

安装成功截图:


第二步:安装 WSL 环境(Docker运行的基础)

wsl的意思是Windows 子系统 Linux,在windows上运行linux虚拟机;

1. 检查并安装 WSL

检查是否安装打开命令行,输入:

bash 复制代码
wsl --list --verbose
若已安装

可跳过至"第三步:安装 Docker Desktop"

若未安装

会提示:"适用于 Linux 的 Windows 子系统没有已安装的分发"输入以下命令开始安装:

更新wsl环境,可能会遇到网络问题,看下面

复制代码
wsl --update

安装wsl,默认会自动选择ubuntu系统

bash 复制代码
wsl --install
2. WSL 安装失败解决方案(网络问题)

如遇到报错,可尝试修改 hosts 文件:

路径:C:\Windows\System32\drivers\etc\hosts

添加以下内容至末尾并保存:

复制代码
185.199.108.133 raw.githubusercontent.com

然后重新运行相关命令。


第三步:安装 Docker Desktop(Heygem运行基础)

🔍 **提示:**若无法访问 Docker 官网,可从文末资料包下载。

安装成功界面:


第四步:安装Heygem需要的dokcer镜像, AI 数字人服务端
1. 下载源码

GitHub 地址:

🔗 https://github.com/GuijiAI/HeyGem.ai

🔍 **提示:**若无法访问 GitHub 官网,可从文末资料包下载源码。

2.配置Docker 加速镜像(提高下载速度)

点击 Docker 设置 → Docker Engine,替换为以下内容:

json 复制代码
{
  "builder": {
    "gc": {
      "defaultKeepStorage": "20GB",
      "enabled": true
    }
  },
  "experimental": false,
  "registry-mirrors": [
    "https://docker-0.unsee.tech",
    "https://docker-cf.registry.cyou",
    "https://docker.1panel.live"
  ]
}

修改后点击 Apply & Restart,等待镜像拉取完成。

3. 拉取heygem镜像
  1. 进入项目 /deploy 目录,找到 docker-compose.yml 文件;

  2. 地址栏输入 cmd 打开命令行,执行以下命令:

bash 复制代码
docker-compose up -d

⚠️ 说明:

  • 此操作约需 70GB 流量,建议连接稳定 WiFi和有线网络;
  • 安装时间可能在半小时以上,视网速而定。(小编安装了2小时)
  • 为了方便大家下载文末资料包中小编已经提取了所有的docker

成功截图:


🔍 **提示:**这3个Docker镜像,可从文末资料包下载。

第五步:安装Heygem, AI 数字人客户端

服务端成功运行后,接下来安装客户端与 AI 数字人"面对面"交流。

1. 下载客户端

🔗 HeyGem 官方 Releases 下载页

选择最新版本的 HeyGem-x.x.x-setup.exe

2. 安装并运行

双击安装包完成安装,桌面会生成快捷方式:


三、使用

使用前需要打开docker(双击打开就行,无需其他操作),然后再启动HeyGem,就能愉快的使用了

四、补充:

本地Api调用

Docker 启动后会在本地暴露几个端口,通过http://127.0.0.1可以调用。

具体代码可以参考

  • src/main/service/model.js
  • src/main/service/video.js
  • src/main/service/voice.js
模特训练
  1. 将视频分离为静音视频 + 音频

  2. 音频放到

    复制代码
    D:\heygem_data\voice\data

    D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的,可以在docker-compose中修改

  3. 调用

    复制代码
    http://127.0.0.1:18180/v1/preprocess_and_tran

    接口

    参数示例:

    复制代码
    {
    "format": ".wav",
    "reference_audio": "xxxxxx/xxxxx.wav",
    "lang": "zh"
    }

    返回示例:

    复制代码
    {
    "asr_format_audio_url": "xxxx/x/xxx/xxx.wav",
    "reference_audio_text": "xxxxxxxxxxxx"
    }

    记录下返回结果后续音频合成需要用到

音频合成

接口:http://127.0.0.1:18180/v1/invoke

复制代码
// 请求参数
{
  "speaker": "{uuid}", // 一个UUID保持唯一即可
  "text": "xxxxxxxxxx", // 需要合成的文本内容
  "format": "wav", // 固定传参
  "topP": 0.7, // 固定传参
  "max_new_tokens": 1024, // 固定传参
  "chunk_length": 100, // 固定传参
  "repetition_penalty": 1.2, // 固定传
  "temperature": 0.7, // 固定传参
  "need_asr": false, // 固定传参
  "streaming": false, // 固定传参
  "is_fixed_seed": 0, // 固定传参
  "is_norm": 0, // 固定传参
  "reference_audio": "{voice.asr_format_audio_url}", // 上一步"模特训练"的返回值
  "reference_text": "{voice.reference_audio_text}" // 上一步"模特训练"的返回值
}
视频合成
  • 合成接口:http://127.0.0.1:8383/easy/submit

    复制代码
    // 请求参数
    {
      "audio_url": "{audioPath}", // 音频路径
      "video_url": "{videoPath}", // 视频路径
      "code": "{uuid}", // 唯一key
      "chaofen": 0, // 固定值
      "watermark_switch": 0, // 固定值
      "pn": 1 // 固定值
    }
  • 进度查询:http://127.0.0.1:8383/easy/query?code=${taskCode}

    get 请求,参数taskCode是上面合成接口入参中的code

更详细的说明请参见: https://github.com/GuijiAI/HeyGem.ai/blob/main/README_zh.md#开放-api

🔖 资料包获取

为方便大家部署体验,这里提供一份完整的资料包。

防止链接被和谐,建议先保存后使用

下载链接

相关推荐
AI大模型顾潇37 分钟前
[特殊字符] 人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) [特殊字符]
数据库·人工智能·语言模型·自然语言处理·大模型·llm·prompt
悠悠海风1 小时前
目标检测中的损失函数(三) | SIoU WIoUv1 WIoUv2 WIoUv3
人工智能·python·深度学习·目标检测·计算机视觉
白熊1881 小时前
【计算机视觉】三维重建: MVSNet:基于深度学习的多视图立体视觉重建框架
人工智能·深度学习·计算机视觉
CodeJourney.2 小时前
Kotlin革新数据分析
人工智能·爬虫·算法·信息可视化
飘若随风2 小时前
PyTorch数据集与数据集加载
人工智能·pytorch·python
正宗咸豆花2 小时前
Prompt多版本测试指南:如何科学评估不同提示词的效果
人工智能·microsoft·prompt
奔驰的小野码2 小时前
SpringAI实现AI应用-搭建知识库
java·人工智能·spring boot·后端·spring·知识图谱
霖大侠3 小时前
PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION -LANGUAGE MODELS
人工智能·语言模型·prompt
xuebodx09233 小时前
使用HunyuanVideo搭建文本生视频大模型
人工智能·pytorch·python·计算机视觉·chatgpt·音视频·视频
AI糊涂是福3 小时前
计算机视觉的未来发展趋势
人工智能·计算机视觉