fast-voice-assistant

首先我们来到这个据说50行代码就可以创建个人语音助手的github地址
GitHub - dsa/fast-voice-assistant: ⚡ Insanely fast AI voice assistant with <500ms response times

按照readme 完成环境的配置

but,你发现,这只是第一步,真正的难点在于完成.env中各个key的配置

1)Using the API --- Cartesia

一个最快的文本转语音模型Sonic

2)https://inference.cerebras.ai/

一个提供大模型api-key的平台,类似于altogether

这里需要申请,需要我用openai的key代替使用

assistant = VoiceAssistant(

vad=ctx.proc.userdata["vad"],

stt=deepgram.STT(),

llm=openai.LLM(

base_url="https://api.openai.com/v1/chat/completions",

api_key=os.environ.get("OPEN_API_KEY"),

model="gpt-4o-mini",

),

tts=cartesia.TTS(voice="248be419-c632-4f23-adf1-5324ed7dbf1d"),

chat_ctx=initial_ctx,

)

3)https://cloud.livekit.io/projects/p_2tdv1p4liil/settings/keys

LiveKit是一个开源的实时通信平台,基于WebRTC,主要用于构建高质量的音视频通话、实时数据传输和互动应用。

LiveKit除了方便以外的大优势就是它提供了丰富的APISDK,支持多种平台,包括WebiOSAndroid服务端

4)运行

后端python main.py dev

前端如下
https://github.com/livekit/agents-playground

扩展

linux 运行开源音视频livekit,实现html视频语音聊天。-CSDN博客

GitHub - livekit/livekit: End-to-end stack for WebRTC. SFU media server and SDKs.

相关推荐
ZHOU_WUYI2 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1232 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界3 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221513 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2513 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台
浊酒南街3 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
畅联云平台4 小时前
美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
人工智能·物联网
加密新世界4 小时前
优化 Solana 程序
人工智能·算法·计算机视觉
hunteritself4 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
Che_Che_5 小时前
Cross-Inlining Binary Function Similarity Detection
人工智能·网络安全·gnn·二进制相似度检测