智能语音助手项目

🎙️ Identity-Aware Multimodal Voice Agent (M-RAG-Voice)

一个具备声纹身份感知动态长期记忆端云混合推理能力的智能语音助手框架。

🏗️ 系统架构

系统采用 Audio-Text-Audio 闭环架构,并嵌入了身份(Identity)层:

📖 项目简介

这是一个探索性的多模态语音交互系统。不同于传统的语音助手,该项目集成了声纹识别 (Speaker Verification)RAG (检索增强生成) 技术。它不仅能听懂"你在说什么",还能识别"你是谁",并根据不同用户的身份调用专属的长期记忆库(如饮食习惯、历史偏好),提供高度个性化的回答。

✨ 核心特性

  • 👥 多用户声纹识别: 集成 CAM++ 模型,支持 1:N 声纹匹配。自动区分"主人"与"访客",支持语音指令注册新用户。
  • 🧠 动态进化记忆: 基于 Milvus 向量数据库构建用户画像。具备"冲突裁决"机制,自动利用 LLM 分析新旧记忆冲突,实现记忆的自我更新与修正。
  • ⚡ 端云混合架构 :
    • 端侧 (Local): 运行高频、低延迟任务(VAD, ASR-SenseVoice, SV-CAM++, TTS)。
    • 云侧/端侧灵活性: LLM (DeepSeek/Qwen) 支持本地部署或 API 调用,平衡隐私与性能。
  • 🛠️ 智能意图路由: 能够区分闲聊、点餐(查询本地知识库)、联网搜索(Tavily)和系统指令。

github : 项目开源地址

相关推荐
老星*1 小时前
AI选股核心设计思路
java·ai·开源·软件开发
摇曳的精灵1 小时前
Keycloak开源企业级IAM
开源·keycloak·iam·sso
扬帆破浪1 小时前
开源免费的WPS AI 软件 察元AI文档助手:链路 002:executeAssistantFromRibbon 与任务进度窗
人工智能·开源·wps
ZStack开发者社区4 小时前
DeepSeek-V4首发即支持,ZStack AIOS 私有化部署即刻可用
人工智能·开源·云计算
俊基科技4 小时前
医院数字化转型破局!A-59P助力医护高效协同与安全监护
语音识别·ai降噪·回音消除·强噪消回音·医院通讯·设备高效
行走的小派4 小时前
香橙派即插即用算力加速卡+具身智能盒子,开源生态与算力开发利器
开源
憨波个5 小时前
【说话人日志】多说话人数据仿真 Property-Aware Simulation
人工智能·深度学习·音频·语音识别
code 小楊6 小时前
DeepSeek V4 全面解析:测评、对比、案例及实操指南
人工智能·开源
Hommy887 小时前
【开源剪映小助手】调试与故障排除
开源·github·aigc
GitCode官方7 小时前
Qwen3.6-27B 开源:昇腾适配已到位,AtomGit AI 开放体验
人工智能·开源