详解用大模型超拟人语音做桌面AI宠物/机器人的个性化能力

前言

本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解,超拟人交互效果可以参考视频:

超拟人语音极速回复演示视频

目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能,具体业务流程如下:

流程详解:

  • 用户发起交互后,会进行ASR语音转文字和声纹识别,当前声纹能力支持成年人男女、儿童男女四种身份识别,模型能基于不同身份分析提供不同的个性化回复。
  • 完成识别后,若产品有配置知识库,会优先基于知识库问题匹配阈值,大于阈值则优先基于知识库内容问答,小于阈值再进入意图分类。
  • 模板提供了落域、改写、拆解模型,进行意图处理,意图分类后将进入对应流程。
  • 如用户意图属于天气、计算器、日期查询等AIUI技能,则会落域到AIUI链路,进行技能回复。
  • 如用户意图属于闲聊、开放性问答、搜索意图,则会进入大模型调用链路。最后通过一系列系统决策,进行超拟人合成。

功能详解和应用场景

一、极速响应

对比前一代大模型语言交互,深度优化音频生成速度,实现毫秒级响应;融合升级后的端侧降噪算法,处理端侧音频速度提升7倍以上;语音最快回复<1秒,能明显提升大模型语音硬件产品的交互体验。

二、超拟人TTS

采用超拟人发音,大幅提升合成音频中的情绪表达能力,音色更自然、情感丰富、语调灵动,告别"播音腔,提供多个音色选择,可用于陪伴型机器人、玩具等产品。

|---------|--------------------------------------|-----------------|
| 对比维度 | 超拟人语音合成 | 传统 TTS |
| 自然度与拟人度 | 接近真人语音 | 生硬,无变化和细节 |
| 情感表达 | 声音更具感染力和亲和力 | 单调、机械 |
| 语言处理能力 | 能更准确地分析和理解文本信息 对复杂语言现象处理更精准 | 会出现声调不准、韵律异常等问题 |
| 应用场景 | 给AI语音助手、有声阅读、陪伴机器人、智能服务等提供自然情感化交互的体验 | 简单语音播报、信息提示等 |

三、声纹识别

通过声音特征区分儿童(男、女)、成人(男、女),在实际的应用场景中,可以通过声音分辨成员类别,实现个性化服务,如内容推荐、权限管理等。

可以根据儿童的声音做出不同的反应。比如,一个智能玩偶,它能够区分男孩和女孩的声音,当听到女孩温柔的声音时,它可以用比较柔和的语气回应,讲述公主之类的故事;当听到男孩充满活力的声音时,它可以提供冒险、超级英雄之类的互动内容。同时,智能玩具还可以设置权限,防止儿童误操作。

智能语音助手产品

可以根据不同年龄段和性别的用户声音,提供符合其性别和年龄阶段可能关注的内容,例如面对儿童语音助手可以用更简单易懂的语言、活泼的语气回答问题。面对成年男性提供体育赛事信息,为成年女性提供时尚资讯,以及针对不同身份提供不同的闲聊内容等。

四、知识库问答

厨房场景

结合产品功能后,除了可以可以根据用户语音指令提供精准的菜谱推荐,也可以指导操作步骤、用法用量等,让产品使用变得更加轻松和专业,即使是新用户也能快速上手做出美味佳肴。

家居电器

根据不同的场景和类型,语音推荐合适的用品,并指导用户正确使用,确保方便上手的同时避免不当操作带来的损害。当设备出现故障时,通过语音交互快速诊断问题并提供解决方案,减少维修等待时间。

宠物场景

宠物饲养过程中遇到的问题,如宠物饮食、健康护理、行为训练等方面的知识,获取专业的解答和建议,确保宠物得到科学的照顾。并可以根据宠物的具体情况,语音推荐合适的宠物用品,如食品、玩具、药品等,并提供购买建议和使用说明。

音乐娱乐场景

用户可以通过语音指令让音箱播放特定的歌曲、歌手或音乐风格的曲目,能精准理解用户需求并快速搜索播放资源,同时还能根据用户定义的音乐偏好进行个性化推荐,介绍歌曲的背景、歌手的相关信息等

学习场景

通过知识库功能快速定制个性化的学习计划和内容推荐,如推荐适合的课外读物、学习游戏或在线课程等,针对不同情况帮助孩子更高效地学习。

五、兜底闲聊

针对语音交互场景提供的闲聊技能,可以在没有合适回复内容的时候承接用户的问答,提升用户体验。

结语

以上即为当前大模型超拟人方案的个性化功能讲解,如有更多落地需求和问题可以留言,合适的需求我们会放入后续版本迭代实现

演示视频中使用的CSK6大模型语音开发板硬件设计和SDK可以直接下载,有想做详细了解的可以参考这个文档:https://docs2.listenai.com/x/nTn9kMMCU

相关推荐
旷野..10 分钟前
如何用通俗易懂的方式解释大模型中的SFT,SFT过程需要大量标记的prompt和response吗?
人工智能·prompt
2401_8974446428 分钟前
用AI技术提升Flutter开发效率:ScriptEcho的力量
前端·人工智能·flutter
EDPJ1 小时前
(2023|NIPS,LLaVA-Med,生物医学 VLM,GPT-4 生成自指导指令跟随数据集,数据对齐,指令调优)
人工智能·深度学习·计算机视觉·视觉语言模型
zaim12 小时前
计算机的错误计算(二百零七)
人工智能·ai·大模型·llm·错误·误差/error·反余切/arccot
nwsuaf_huasir2 小时前
S变换matlab实现
人工智能·算法·matlab
计算机科研之友(Friend)2 小时前
海外招聘丨卡尔斯塔德大学—互联网隐私和安全副高级讲师
图像处理·人工智能·安全·计算机视觉·数据挖掘·机器人
EasyNVR2 小时前
视频转码对画质有影响吗?视频融合平台EasyCVR支持哪些转码格式?
人工智能·音视频
Zerol_Yan2 小时前
sklearn-逻辑回归-制作评分卡
人工智能·逻辑回归·sklearn
TMT星球2 小时前
三线结构光避障远近有度,石头自清洁扫拖机器人G30上市
人工智能·机器人
Jamence2 小时前
超大规模分类(三):KNN softmax
人工智能·深度学习·机器学习·分类