做自己的小爱通话-AI手机电话外呼
-从手机ivr应答走向手机ai应答
--本地AI电话机器人
-
下一篇:手机转SIP-手机做中继网关-落地线路对接软交换呼叫中心
-
一、前 言
前面的篇章中,我们通过《手机SIM卡通话中随时插入录音语音片段(Android方案)》和《手机打电话时由对方DTMF响应切换多级IVR语音菜单》讲述了"如何将手机SIM卡的电话通话进行IVR应答",将一部个人手机转换为像企业400电话类似的企业总机。
但当前的现代社会AI大行其道,既然已经取到电话的通话语音,将它直接传递给AI-agent,让它根据预先设置的话术进行AI语音应答,才是电话的主流应用场景。本篇针对市面上AI电话外呼的常用机器人对接的接口和方式,详细论述一下如何利用现有技术,实现一个自定义的"AI电话手机"/"AI电话外呼工作手机",做出类似手机厂商内置的"小爱通话"一样的应答效果。
体验和下载地址:
智能拨号器App: 手机转SIP-手机做中继网关-落地线路对接软交换呼叫中心
USB蓝牙配件购买路径(参考):最新淘宝链接请私信联系。
- 二、AI电话手机依赖哪些条件
从前文IVR应答的功能中我们可知,AI电话手机对于SIM卡通话也仅需下述4步:
1)获取到通话已被接通的事件。
2)获取到对方说话的上行声音数据。
3)手机要能联网,将语音数据传给AI机器人平台。
4)手机接收AI的语音应答,并将语音注入到电话通话的下行数据给对方播出。
相比于IVR语音应答,AI电话通话涉及ASR/LLM/TTS等对运算资源高消耗的AI算法,通常不在手机本地运行,因此需要将语音数据通过网络传输到AI算力平台,并将其实时响应的语音应答注入到通话中。
也正因为引入了网络环节,AI电话手机相比于传统人与人/IVR录音片段的应答,增加了"端到端"时延的概念,这在AI电话外呼手机中也是很重要的通话质量的衡量指标。
- 三、AI应答机器人的对接方式
通常来说,做为语音领域的AI-agent,在内测和商用阶段通常会对外提供下述三种接口:
1)websocket直接接口:直接注入上行语音并接收下行TTS语音应答。
2)MQTT+UDP协议:使用MQTT协议来传递操作指令和事件反馈,使用UDP协议来收发语音数据。
3)SIP+RTP协议:这个是业界内比较普遍的语音领域的AI-agent接入方式,通过SIP协议接入架构更加灵活:既可以在SBC侧做AI机器人转发,也可以在SIP服务器中对接AI机器人。

通常来说,语音和电话通话领域免不了涉及"话单和录音"的获取和存储方式,从这个角度出发,SIP协议因为组网和分发架构的灵活性,非常方便的对话单和录音进行扩展,逐渐变成主流的AI外呼机器人的对接方式。AI电话手机默认也要支持SIP协议对接的方式。
- 四、普通手机如何将来电接入AI
蓝牙电话方案的前期规划中,我们规划了两种AI应答的电话接入方式:
1)智能拨号器APP直接调用AI-agent接口(如websocket或MQTT+UDP协议),将电话通话的语音直接注入给AI机器人,对方响应后把它返回的TTS语音写入通话中做应答。
2)应用APP使用SIP协议,通过局域网或Intenet,将手机做为电话网关,绑定到SIP平台。AI-agent做为SIP平台的UA坐席来对手机来电或外呼的通话提供AI服务。
归纳起来,实现的AI电话手机效果应当是一样的,电话的"端到端"时延效果应该会有轻微差异,如下图所示:
- 五、总结
本篇章中,我们重要探讨如何将提取到的手机电话语音,通过预先部署的AI机器人平台,实现一个自定义的"AI电话手机"/"AI电话外呼工作手机"的能力。
通常来说websocket直连的方式能让手机打电话时"端到端"时延更少,通话对方听到的语音交互响应更加快速。而SIP协议对接的方式在多个手机网关并发数高的时候能够有更加灵活的扩展方式,话术和业务调度的并发协同性会更好。