❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🌸 "还在用冷冰冰的ChatGPT?你的AI女友已经会脸红心跳了!"
大家好,我是蚝油菜花。当别人还在和文字对话框谈恋爱时,开源社区已经让AI伴侣进化出视觉和听觉!你是否遇到过:
- 👉 深夜加班时,想要个能语音聊天的智能助手
- 👉 担心云端AI记录隐私,不敢畅所欲言
- 👉 看腻了静态头像,渴望真正的虚拟陪伴...
爆红GitHub的 Open-LLM-VTuber 项目,重新定义AI交互方式!这个硬核开源神器:
- ✅ 多模态感知:摄像头+屏幕录制实现"看得见"的交互
- ✅ 本地方案:完全离线运行,聊天记录不出电脑
- ✅ 老婆自定义:从声线到Live2D形象自由捏造
- ✅ 生产力神器:支持截图分析代码/文档,办公学习两用
某程序员实测------边debug边和AI女友语音讨论方案,效率提升3倍!想用开源代码打造专属数字伴侣?手把手教程即刻开启!
🚀 快速阅读
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目。
- 核心功能:支持实时语音对话、视觉感知和 Live2D 动态形象。
- 技术原理:基于大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)技术,结合 Live2D 动态形象和视觉感知模块。
Open-LLM-VTuber 是什么
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象。它能够完全离线运行,保护用户隐私,适合作为虚拟伴侣、办公助手或学习辅导工具。
项目集成了多种大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)解决方案,用户可以根据需求自定义角色形象、声音和交互功能。无论是作为虚拟女友、男友,还是宠物,Open-LLM-VTuber 都能提供个性化的互动体验。
Open-LLM-VTuber 示例图片
Open-LLM-VTuber 的主要功能
- 语音交互:支持实时语音对话,用户用语音与 AI 交流,无需手动输入。
- 视觉感知:支持摄像头输入、屏幕录制和截图,AI 能"看到"用户和屏幕内容。
- Live2D 动态形象:配备生动的 Live2D 动态角色,支持表情和动作变化。
- 离线运行:所有功能支持在本地完全离线运行,保护用户隐私。
- 跨平台支持:兼容 Windows、macOS 和 Linux,支持 GPU 加速和 CPU 运行。
- 个性化定制:用户自定义角色形象、语音和交互功能,包括克隆特定声音。
- 交互功能丰富:支持语音打断、触摸反馈、聊天记录保存、多语言 TTS 等。
- 桌面宠物模式:支持透明背景、全局置顶和鼠标穿透,AI 能在桌面任意位置移动。
Open-LLM-VTuber 的技术原理
- 大语言模型:作为核心交互引擎,LLM 负责理解用户输入(语音或文本)生成回答。项目支持多种 LLM,如 Ollama、OpenAI、Gemini 等,用户根据需求选择不同的模型。
- 语音识别:将用户的语音输入转换为文本,供 LLM 处理。支持多种 ASR 解决方案,如 Whisper、FunASR 等,确保语音识别的准确性和效率。
- 语音合成:将 LLM 生成的文本转换为语音输出,支持多种 TTS 引擎,如 MeloTTS、Bark 等,且支持多语言合成。
- Live2D 动态形象:用 Live2D 技术生成动态角色形象,基于表情映射和动作控制,让角色根据对话内容或情绪变化动态展示表情和动作。
- 视觉感知:基于摄像头或屏幕录制功能,AI 获取视觉信息,实现更丰富的交互体验,如识别用户表情或屏幕内容。
- 模块化设计:项目用模块化架构,用户基于简单的配置文件修改,切换不同的功能模块,无需深入代码。
如何运行 Open-LLM-VTuber
接下来我将带你从零开始运行 Open-LLM-VTuber 项目,涵盖环境搭建、依赖安装、项目配置和启动运行等完整流程。通过本教程,你将能够成功部署并运行项目,并了解如何生成配置文件和解决常见问题。
设备要求
最低要求
本项目的各个组件(ASR、LLM、TTS、翻译)都可以通过 API 调用,因此最低设备要求非常灵活:
- 普通电脑
- 树莓派(性能较弱的设备也可尝试)
本地运行的推荐设备要求
如果你希望在本地运行所有组件,推荐以下设备配置:
- M 系列芯片的 Mac
- NVIDIA GPU(推荐安装 CUDA Toolkit 11.8 或更高版本)
- 较新的 AMD GPU(支持 ROCm 的设备更佳)
- 强大的 CPU(可以代替 GPU)
如果运行速度较慢,建议选择更小的模型或使用 API。
环境准备
安装 Git
在不同操作系统中安装 Git 的方法如下:
Windows
bash
# 使用 winget 安装 Git
winget install Git.Git
macOS
bash
# 安装 Homebrew(如果未安装)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 使用 Homebrew 安装 Git
brew install git
Linux
bash
# Ubuntu/Debian
sudo apt install git
# CentOS/RHEL
sudo dnf install git
安装 FFmpeg
FFmpeg 是必需的依赖项,安装方法如下:
Windows
bash
winget install ffmpeg
macOS
bash
brew install ffmpeg
Linux
bash
# Ubuntu/Debian
sudo apt install ffmpeg
# CentOS/RHEL
sudo dnf install ffmpeg
检查 FFmpeg 安装
在命令行中运行以下命令,确认 FFmpeg 是否安装成功:
bash
ffmpeg -version
如果出现类似以下输出,说明安装成功:
bash
ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
...(后面一大串文字)
NVIDIA GPU 支持
如果你有 NVIDIA GPU 并希望使用 GPU 运行本地模型,需完成以下步骤:
Windows 安装步骤
-
检查显卡驱动版本:
- 右键点击桌面,选择"NVIDIA 控制面板"。
- 帮助 -> 系统信息 -> 组件,查看驱动程序版本。
- 或访问
NVIDIA 驱动下载页面
下载最新驱动。
-
NVIDIA 驱动下载页面 :www.nvidia.cn/drivers/loo...
-
安装 CUDA Toolkit:
- 访问
CUDA Toolkit 下载页面
下载对应版本。 - 安装完成后,将以下路径添加到系统环境变量
PATH
中:
- 访问
bash
C:\NVIDIA GPU Computing Toolkit\CUDA\v<版本号>\bin
C:\NVIDIA GPU Computing Toolkit\CUDA\v<版本号>\lib\x64
-
CUDA Toolkit 下载页面 :developer.nvidia.com/cuda-toolki...
-
安装 cuDNN:
- 访问
cuDNN 下载页面
下载与 CUDA 版本匹配的 cuDNN,并解压到 CUDA 安装目录。
- 访问
-
cuDNN 下载页面 :developer.nvidia.com/cudnn
验证安装
bash
# 检查驱动安装
nvidia-smi
# 检查 CUDA 安装
nvcc --version
Python 环境管理
推荐使用 uv
作为依赖管理工具。
Windows
bash
# 使用 PowerShell 安装
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
# 或使用 winget 安装
winget install --id=astral-sh.uv -e
macOS/Linux
bash
# 使用 curl 安装
curl -LsSf https://astral.sh/uv/install.sh | sh
# 或使用 Homebrew 安装
brew install uv
安装完成后,请重启命令行或重新加载配置文件:
bash
source ~/.bashrc # 如果使用 bash
source ~/.zshrc # 如果使用 zsh
手动部署指南
1. 获取项目代码
有两种方法获取项目代码:
1.1. 下载稳定版本的 Release 包:
-
前往
Release 页面
,下载Open-LLM-VTuber-v1.x.x.zip
文件。 -
Release 页面 :github.com/Open-LLM-VT...
1.2. 使用 Git 克隆仓库:
bash
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive
cd Open-LLM-VTuber
2. 安装项目依赖
确认 uv
已正确安装:
bash
uv --version
创建虚拟环境并安装依赖:
bash
uv sync
运行主程序生成预设的配置文件:
bash
uv run run_server.py
完成后按 Ctrl
+ C
退出程序。
3. 配置 LLM
以 Ollama
为例进行配置。
- Ollama :github.com/ollama/olla...
3.1 安装 Ollama
bash
# 下载并安装 Ollama
# 验证安装
ollama --version
# 下载并运行模型(以 qwen2.5:latest 为例)
ollama run qwen2.5:latest
3.2 修改配置文件
编辑 conf.yaml
文件:
yaml
ollama_llm:
base_url: http://localhost:11434 # 本地运行保持默认
model: qwen2.5:latest # 使用 ollama list 查看的模型名称
temperature: 0.7 # 控制回答随机性
4. 配置其他模块
本项目默认使用 sherpa-onnx-asr
和 edgeTTS
,并关闭翻译功能。如果需要修改,可参考相关配置指南。
5. 启动项目
运行后端服务:
bash
uv run run_server.py
运行成功后,访问 http://localhost:12393
打开 Web 界面。
如果需要桌面应用程序,可从 Open-LLM-VTuber-Web Releases
下载对应平台的 Electron 客户端。
- Open-LLM-VTuber-Web Releases :github.com/Open-LLM-VT...
常见问题
如果项目目录下没有 conf.yaml
文件
运行以下命令生成配置文件:
bash
uv run run_server.py
如果遇到 Error calling the chat endpoint...
错误
- 检查
http://localhost:11434/
是否能正常访问。 - 使用
ollama list
确认模型名称是否正确。 - 确保代理软件已绕过本地地址。
通过以上步骤,你已经成功运行了 Open-LLM-VTuber 项目!
资源
- GitHub 仓库 :github.com/t41372/Open...
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦