fast-voice-assistant

首先我们来到这个据说50行代码就可以创建个人语音助手的github地址
GitHub - dsa/fast-voice-assistant: ⚡ Insanely fast AI voice assistant with <500ms response times

按照readme 完成环境的配置

but,你发现,这只是第一步,真正的难点在于完成.env中各个key的配置

1)Using the API --- Cartesia

一个最快的文本转语音模型Sonic

2)https://inference.cerebras.ai/

一个提供大模型api-key的平台,类似于altogether

这里需要申请,需要我用openai的key代替使用

assistant = VoiceAssistant(

vad=ctx.proc.userdata"vad",

stt=deepgram.STT(),

llm=openai.LLM(

base_url="https://api.openai.com/v1/chat/completions",

api_key=os.environ.get("OPEN_API_KEY"),

model="gpt-4o-mini",

),

tts=cartesia.TTS(voice="248be419-c632-4f23-adf1-5324ed7dbf1d"),

chat_ctx=initial_ctx,

)

3)https://cloud.livekit.io/projects/p_2tdv1p4liil/settings/keys

LiveKit是一个开源的实时通信平台,基于WebRTC,主要用于构建高质量的音视频通话、实时数据传输和互动应用。

LiveKit除了方便以外的大优势就是它提供了丰富的APISDK,支持多种平台,包括WebiOSAndroid服务端

4)运行

后端python main.py dev

前端如下
https://github.com/livekit/agents-playground

扩展

linux 运行开源音视频livekit,实现html视频语音聊天。-CSDN博客

GitHub - livekit/livekit: End-to-end stack for WebRTC. SFU media server and SDKs.

相关推荐
火山引擎开发者社区4 小时前
没有长期记忆,Agent 谈何持续进化?一图看懂火山 Mem0:解锁 Agent 持续学习与进化之路
人工智能
冬奇Lab8 小时前
Workflow 系列(06):安全——跨步骤注入传播与四层防御
人工智能·工作流引擎
冬奇Lab8 小时前
每日一个开源项目(第149篇):RAG-Anything - 把图片、表格、公式当成一等公民的多模态 RAG 框架
人工智能·开源
米小虾8 小时前
AI Agent 安全实战指南:当智能体开始"不听话",开发者该如何应对?
人工智能·安全·agent
IT_陈寒10 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术12 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu122712 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队12 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇12 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端