本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)
目录
一、背景
美团优选用户_智能_催促配送外呼主要针对用户催单场景,通过电话外呼形式代用户催促司机,确认司机送达时间,传达用户催单诉求,将回收送达时间告知用户进行反馈,完成催单流程。针对于以上这一细小实验需求流程背景,展开和梳理智能外呼机器人全流程的意图训练机制。全流程意图训练主要分为以下两部分:
①上线前:训练师侧在上线前完成智能外呼机器人语料收集及准备(数据来源可参考人工侧外呼语料)、意图识别训练、正则表达式规则编写等,联动运营侧制定意图清单与定义、梳理与完善主流程交互方案、知识库建设等;
②上线后:对外呼机器人质检,通过日常人机交互通话进行录音测听,按照质检标准与衡量因素,输出质检指标报告,并对质检中发现到的意图缺失、未覆盖意图、话术流程节点缺失与错误等问题进行多轮优化。
二、意图训练全流程
1、操作平台:外呼机器人训练平台
语音外呼机器人主要采用主流程+知识库FAQ来实现外呼交互。
主流程:开场白到表明来意...到结束语挂机的主要交互流程及话术分支
知识库:常用问题解答,采用一问一答的形式,如:Q:你们是什么公司;A:我们是美团公司。
2、意图训练
①意图标准制定:
熟悉主流程话术节点走向及该流程中涉及的自定义意图+系统内置意图,根据机器人主流程意图形成意图清单,制定清单里的每个意图边界及标准定义;目的是明确什么样的语料属于意图1;什么样的情况属于意图2,提前定义清楚意图边界,保证接下来的语料输入到正确意图过程顺利。
![](https://i-blog.csdnimg.cn/img_convert/b62e1c556a5bae3b582c337a4a54bd6b.png)
②语料输入与模型训练(相似问)
针对①中的意图标准与边界定义,对外呼机器人涉及的意图进行语料输入和训练,可以聚类出人工客服侧真实用户回复语句进行意图语料输入,也可以自己扩写语料进行输入,其目的是在该意图的明确定义下达到尽可能丰富的语料内容,增加真实用户不同问法,保证用户的query是可以命中交互流程中的正确意图。
流程中的意图分类可分为以下:
- 自定义意图:
![](https://i-blog.csdnimg.cn/img_convert/87d660725d0ba3679098318bc0aba113.png)
- 一般为主流程内与业务相关的意图,根据意图标准边界进行数据标注添加
- 添加时保证数据特征尽量丰富,尽量增加多种问法query;保证增加明确性数据,避免意图不清数据的添加
- 系统意图
![](https://i-blog.csdnimg.cn/img_convert/53877efd033671a7a75e8fe4f1c7f2ac.png)
- 系统通用意图内容,一般初期不需专门标注增加,但需要对与主流程无关意图相似问进行丰富
- 后期模型上线后,可根据具体用户query不断标注增加丰富相似问
③意图规则编写(正则表达式)
![](https://i-blog.csdnimg.cn/img_convert/b62e1c556a5bae3b582c337a4a54bd6b.png)
- 对标准明确、用户输入语料特征集中部分,可以增加正则表达式来识别关键字,与相似问训练共同作用,提升意图识别准确
- 关键词具备的好处是可以快速进行意图识别,实施周期较模型训练周期更短,更方便快速部署上线
- 增加前保证正则编写正确,通过测试验证正则表达式的覆盖程度和宽泛问题,如编写多个正则,需要考虑正则之间的冲突问题
- 具体编写逻辑参考正则表达式编写准则
④意图优化与补充
意图优化:review人机交互数据过程中,部分语料未正确归属该意图,进行语料补充来优化意图;也可完善正则表达式,丰富关键词识别方式。
意图补充:review人机交互数据过程中,对一些目前主流程中没有覆盖的用户query进行意图总结、反馈,与运营同学共识是否需新增意图,是否需要调整主流程等
⑤意图策略说明
以上模型识别+正则关键词识别=融合策略(Hybrid Strategy)。我们可以将基于关键词规则,基于统计和基于深度学习的NLP方法进行融合,不断提升计算机的自然语言处理能力。
规则+NLP模型=融合策略
意图识别策略补充:
意图识别通常有几个方式来做,模型+正则表达式+关键字+逻辑关系。
1、模型:即 NLP 模型,这里涉及的不止是 NLU 模型,还包括语义纠错模型、句式识别模型、分词词性模型、多意图识别模型、实体识别模型等等
2、正则表达式:利用正则方式的规则把识别的关键词聚合,理论上也属于关键字识别的一种。
3、关键词输入:这个好理解,就是单纯和明确的关键字、词。
4、逻辑关系:部分产品也有用到这个的,即或与非关系、包含 XX、非 XX、除 XX 等数学逻辑关系,主要方便使用人员关键字与关键字之间的关系搭配。
除模型外,2/3/4 可以统称为规则识别。当前小美平台能力用到的是NLP模型+正则表达式。
三、机器人效果测试
1、机器人质检
①质检平台
https://mbot.sankuai.com/quality/callQuality/index
②新增质检操作
③质检频次
- 灰度上线后,初期尽量每天进行质检,保证及时发现没能全覆盖的用户的问答,发现流程或话术配置不合理的问题,避免大规模上线的问题发生
- 机器人稳定拨打期间,每两周发起一次常规质检,每月发起一次ASR质检
④衡量指标
|----------------------|-----------------------------------------------|--------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------|
| 质检类型 | 标注节点 | 质检问题类型 | 指标统计 |
| NLU识别是否准确 | 用户query(所有显示NLU结果的,没有turnNum或者英文名是unvalid不用看) | 意图识别错误:系统输出的意图出错,和人工判断的用户说法意图结果不对应的时候,打【意图识别错误】标签。 如: 系统输出"肯定"意图,但是用户说法九九四零九,应该是"other"意图 | 统计所有系统有NLU意图结果的query作为分母,打【意图识别错误】标签的query作为分子,最终得意图识别错误率 |
| NLU识别是否准确 | 用户query(所有显示NLU结果的,没有turnNum或者英文名是unvalid不用看) | 机器人输出的意图结果是other,人工判断用户说法意图不应该是other的时候,打【意图识别错误】标签。 如: 系统输出"other"意图,但是用户说法"就咨询一下这个流程吗"结合场景,应该是"咨询注册流程"意图 | 统计所有系统有NLU意图结果的query作为分母,打【意图识别错误】标签的query作为分子,最终得意图识别错误率 |
| 机器人回复话术是否准确(端对端是否准确) | 机器人回复话术 | 机器人没能正确回答用户的话,打【话术回复错误】标签。(需要听音标) | 统计所有机器人回复话术(去除开场白)作为分母,打【话术回复错误】标签的query作为分子,最终得话术回复错误率 |
| TTS发音是否准确 | 机器人开场白+回复话术 | 变量的动态拼接不连贯等情况,打【TTS发音错误】标签 | 统计所有机器人开场白话术+回复话术作为分母,打【TTS发音错误】标签的query作为分子,最终得TTS发音错误率 |
| ASR转写是否准确 | 用户query | 系统ASR转写丢字漏字错字,打【ASR转写错误】标签 用户说法整句不是人声,是整句噪音、环境音、音乐旋律等情况,打【噪音】标签 听音是多人说话,打【多人说话】标签 听音听不清,既有人声又有环境音噪音,打【听不清】标签 | 统计所有用户query减去打【多人说话】【噪音】【听不清】标签的量作为分母,打【ASR转写错误】标签的query作为分子,最终得ASR转写错误率 |
参考 :https://km.sankuai.com/page/1301843335
2、质检指标输出
①报告生成
参考模版