本案例需要你懂一些【docker】、【linux】知识
故事背景
最近在捣鼓小智AI,目前社区还是挺完善的,MCU支持也很足,但是我不太想用小智的后台系统,一直想搭建一个自己的 mcp 服务,所以一直在找一个可以替代的方案。
功夫不负有心人,找到了 xiaozhi-server 这个项目。
这篇文章用来记录一下在搭建项目的流程和碰到的一些坑。
环境介绍
- 香橙派 zero 3 * 1 (搭载了 linux22 系统)
- esp32-s3 小智开发板 * 1 (自主烧录小智固件)
操作步骤
本教程只提供 docker版操作教程,目前docker版有两种操作方式:
- 懒人脚本一键下载(推荐)
- docker 手动部署
1. 懒人脚本一键部署(推荐)
1.1 下载脚本
执行以下命令以下载懒人脚本:
bash
curl -L -o docker-setup.sh https://raw.githubusercontent.com/xinnan-tech/xiaozhi-esp32-server/main/docker-setup.sh
如果以上脚本无法执行,并且报错如下所示:
vbnet
curl: (7) failed to connect to raw.githubusercontent.com port 443 after 1 ms: couldn't connect to server
因为这个域名对应的是外网ip,如果你没有开魔法的话则没有办法,如果你开了魔法,那就好办了,按照下面的命令依次执行;
登陆www.ipaddress.com网站查询 raw.githubusercontent.com 对应ip ,示例如下:

把查询到的ip写入host 文件,如下:
arduino
sudo vi /etc/hosts
// hosts 文件写入
185.199.108.133 raw.githubusercontent.com
最后再尝试执行脚本即可。
1.2 执行脚本
如果您的电脑是windows系统,请使用 Git Bash、WSL、PowerShell 或 CMD 运行以下命令:
arduino
# Git Bash 或 WSL
sh docker-setup.sh
# PowerShell 或 CMD
.\docker-setup.sh
如果您的电脑是linux 或者 macos 系统,请使用终端运行以下命令:
arduino
chmod +x docker-setup.sh
./docker-setup.sh
脚本会自动完成以下操作:
- 创建必要的目录结构
- 下载语音识别模型
- 下载配置文件
- 检查文件完整性
执行完成后,请按照提示配置 API 密钥。
1.3 修改配置文件
主要修改以下几个位置:
yml
selected_module:
# 将根据配置名称对应的type调用实际的LLM适配器
LLM: DoubaoLLM
# TTS将根据配置名称对应的type调用实际的TTS适配器
TTS: DoubaoTTS
LLM:
DoubaoLLM:
# 定义LLM API类型
type: openai
# 先开通服务,打开以下网址,开通的服务搜索Doubao-1.5-pro,开通它
# 开通地址:https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false
# 免费额度500000token
# 开通后,进入这里获取密钥:https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey?apikey=%7B%7D
base_url: https://ark.cn-beijing.volces.com/api/v3
model_name: doubao-1-5-pro-32k-250115
api_key: ******(在豆包平台上申请)
TTS:
# 当前支持的type为edge、doubao,可自行适配
EdgeTTS:
# 定义TTS API类型
type: edge
voice: zh-CN-XiaoxiaoNeural
output_dir: tmp/
DoubaoTTS:
# 定义TTS API类型
type: doubao
# 火山引擎语音合成服务,需要先在火山引擎控制台创建应用并获取appid和access_token
# 山引擎语音一定要购买花钱,起步价30元,就有100并发了。如果用免费的只有2个并发,会经常报tts错误
# 购买服务后,购买免费的音色后,可能要等半小时左右,才能使用。
# 普通音色在这里开通:https://console.volcengine.com/speech/service/8
# 湾湾小何音色在这里开通:https://console.volcengine.com/speech/service/10007,开通后将下面的voice设置成zh_female_wanwanxiaohe_moon_bigtts
api_url: https://openspeech.bytedance.com/api/v1/tts
voice: zh_female_meilinvyou_moon_bigtts(音色可自定义)
output_dir: tmp/
authorization: "Bearer;"
appid: *****(在豆包上申请)
access_token: *****(在豆包上申请)
cluster: volcano_tts
speed_ratio: 1.0
volume_ratio: 1.0
pitch_ratio: 1.0
1.4 检验容器运行情况
执行以下命令来部署服务:
bash
docker-compose up -d
执行完后,再执行以下命令,查看日志信息。
vbscript
docker logs -f xiaozhi-esp32-server
测试
进入 xiaozhi-server/test 文件夹,打开 test_page.html 文件,来通过输入文本或者是语音来测试项目是否部署成功。(注意端口的映射关系)
总结
以上就是小智服务端的搭建过程,下一期我介绍一下如何通过 esp32-s3 开发板来接入小智AI模型实现联动。