目录

fast-voice-assistant

首先我们来到这个据说50行代码就可以创建个人语音助手的github地址
GitHub - dsa/fast-voice-assistant: ⚡ Insanely fast AI voice assistant with <500ms response times

按照readme 完成环境的配置

but,你发现,这只是第一步,真正的难点在于完成.env中各个key的配置

1)Using the API --- Cartesia

一个最快的文本转语音模型Sonic

2)https://inference.cerebras.ai/

一个提供大模型api-key的平台,类似于altogether

这里需要申请,需要我用openai的key代替使用

assistant = VoiceAssistant(

vad=ctx.proc.userdata["vad"],

stt=deepgram.STT(),

llm=openai.LLM(

base_url="https://api.openai.com/v1/chat/completions",

api_key=os.environ.get("OPEN_API_KEY"),

model="gpt-4o-mini",

),

tts=cartesia.TTS(voice="248be419-c632-4f23-adf1-5324ed7dbf1d"),

chat_ctx=initial_ctx,

)

3)https://cloud.livekit.io/projects/p_2tdv1p4liil/settings/keys

LiveKit是一个开源的实时通信平台,基于WebRTC,主要用于构建高质量的音视频通话、实时数据传输和互动应用。

LiveKit除了方便以外的大优势就是它提供了丰富的APISDK,支持多种平台,包括WebiOSAndroid服务端

4)运行

后端python main.py dev

前端如下
https://github.com/livekit/agents-playground

扩展

linux 运行开源音视频livekit,实现html视频语音聊天。-CSDN博客

GitHub - livekit/livekit: End-to-end stack for WebRTC. SFU media server and SDKs.

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
机器鱼21 分钟前
C++计算机视觉实战:100个实际案例分析
人工智能·计算机视觉
萧鼎30 分钟前
下一代AI App架构:前端生成,后端消失
前端·人工智能·架构
AIGC_ZY36 分钟前
PyTorch 实现图像版多头注意力(Multi-Head Attention)和自注意力(Self-Attention)
人工智能·pytorch·python
巷9551 小时前
OpenCV轮廓检测全面解析:从基础到高级应用
人工智能·opencv·计算机视觉
新智元1 小时前
AI 爬虫肆虐,OpenAI 等大厂不讲武德!开发者打造「神级武器」宣战
人工智能·openai
新智元1 小时前
Llama 4 深夜开源击败 DeepSeek V3!2 万亿多模态巨兽抢回王座
人工智能·openai
万里鹏程转瞬至1 小时前
深度学习中模型量化那些事
人工智能·深度学习
KangkangLoveNLP1 小时前
手动实现一个迷你Llama:手动实现Llama模型
网络·人工智能·python·算法·机器学习·自然语言处理·llama
Ronin-Lotus1 小时前
深度学习篇---模型训练(1)
人工智能·python·深度学习
新智元1 小时前
Llama 4 训练作弊爆出惊天丑闻!AI 大佬愤而辞职,代码实测崩盘全网炸锅
人工智能·openai