基于集成Whisper 与 Pepper-GPT改进人机交互体验并实现顺畅通信

摘要

随着技术以令人眼花缭乱的速度发展，使人机交互更加顺畅比以往任何时候都更加重要。为了应对这一挑战，一个新领域应运而生：人机交互（HRI）。有效的人机交互被认为是实现技术效益的关键。

用户体验（UX）是指机器对用户的影响--易用性、直观性、实用性以及交互过程中的挫折程度。确保良好的用户体验对于机器人为我们的日常生活带来实质性价值至关重要。

软银机器人公司（Softbank Robotics）推出的著名仿人社交机器人 Pepper 以其多样化的交互功能而闻名。然而，如果要实现更像人类的交流，Pepper 目前的能力可能无法满足人们的期望。研究还表明，语言处理过程中的延迟和错误会影响用户体验。开发人员准备的对话也很有限，很难对用户的深入问题和要求做出回应，而且据说 Pepper 的语音识别能力也不足以理解自然语言。

为应对这些挑战，预计将使用 ChatGPT 等大规模语言模型。这些先进的系统可以实现更自然、更符合语境的对话，并有助于提高 Pepper 的语音识别能力。

本文开发了 Pepper-GPT 系统，该系统集成了 Pepper 机器人、Whisper 和 GPT API。它还报告了该方法及其与人类互动的实验结果。这一举措旨在提高与机器人交流的质量，为人类生活带来更大价值。

技术

Pepper-GPT 项目采用独特的方法彻底改变人与机器人之间的交流。该项目的核心是两个关键要素：BlackBox 和 PepperController。

BlackBox 结合了先进的语音识别和自然语言处理技术，负责将用户的语音转换为文本并生成有意义的回复。它使用 OpenAI 的 Whisper 自动语音识别系统和 gpt-3.5-turbo 语言模型。另一方面，PepperController 负责管理机器人在现实世界中执行动作的命令。

数据交换基于客户端-服务器模式，使用 TCP/IP 协议，确保了可靠性和稳定性。这种系统设计确保了从语音输入到生成响应的流畅过程，使人机互动更加自然。

Pepper-GPT 扩展了人工智能和机器人技术的潜力，使实时互动伴侣不仅仅是一个数字助理。这种方法成功地为机器人提供了先进的通信能力，甚至能够进行物理操作。

此外，BlackBox 可分为两个模块：语音识别模块和 GPT 模块。通过这两个模块，BlackBox 可记录用户的语音输入，识别语音内容，并通过 GPT-3.5 模型生成精确的操作命令或上下文化的响应。生成的结果将发送给 PepperController 执行。

语音识别模块

Pepper-GPT 项目的语音识别工作重点是准确解读用户的语音并做出相应的响应。这一过程的核心是 Whisper ASR 系统，它是从三种不同的自动语音识别 (ASR) 模型测试中选出的。之所以选择该系统，是因为它具有鲁棒性和出色的性能，可以显著提高 Pepper 机器人的语音识别能力。特别是，在兼顾处理速度、资源消耗和准确性方面，Whisper Small 模型的效率优于其他模型。

语音识别模块的设计是在检测到人声时开始录音，在检测到静音时停止录音，以防止产生无声音频。它还集成了一个 Silero VAD 模型，可以识别人声，避免意外生成 "谢谢 "等短语，从而引发不恰当的反应。

录制的音频被保存为文件，并由 Whisper Small 模型转换为文本。然后，文本被传输到 GPT 模块，由该模块负责内容分析和生成回复。不过，有时 Whisper Small 模型无法成功转录文本，在这种情况下，系统会自动提示用户再次发言，确保对话流畅、无压力。

GPT 模块

在 Pepper-GPT 项目中引入 GPT 模块，旨在使用户与机器人之间的交流更深入、更自然。该模块的核心是使用 gpt-3.5-turbo 模型生成响应。之所以选择该模型，是因为它具有出色的理解能力和文本生成能力。它能生成类似人类的回应，使 Pepper-GPT 能够实现高度灵活对话的目标。通过理解用户输入并创建相关的、真实的对话，该技术可以大大提高用户体验的质量。

在该模块中，语音识别模块接收用户的文本，分析文本内容，并根据情况切换到动作模式或语音模式。在动作模式下，用户的要求被转化为 Pepper 机器人可以执行的动作指令。而在语音模式下，GPT 模块则充当对话者的角色，根据上下文做出回应并继续对话。

不过，也可能出现误读。为了解决这个问题，GPT 模块提供了双重检查功能。该功能允许对生成的响应进行复核，以确定是否合适，并在必要时进行修正。这样，Pepper 机器人就能对用户的交互做出适当的反应。

GPT 模块的先进设计进一步促进了用户与机器人之间的互动，确保当用户要求 Pepper 机器人采取行动或进行对话时，它能准确捕捉到用户的意图并做出适当的回应。

Pepper-GPT 项目中的 PepperController 是 Pepper 机器人的中枢神经系统。通过控制机器人的动作和对话，该系统使 Pepper 成为一个更具吸引力和活力的实体。具体来说，Naoqi ALAnimatedSpeech 代理是执行动作和语音命令的核心技术。对于语音指令，PepperController 会将黑盒中的文本转换成语音，Pepper 机器人则会根据用户的话语做出特定的动画。

PepperController

Pepper 机器人可以执行的所有动作都存储在一个预先编码的数据集中，并根据物理动作指令选择适当的动作。此外，在语音识别和生成响应的过程中，过渡动画会像 Pepper 在思考一样进行，从而使交互流程更加流畅。

在数据传输方面，采用了可靠的 TCP/IP 协议，以确保 BlackBox 和 PepperController 之间稳定的数据交换。该通信协议具有重传功能，可确保数据的可靠收发，防止数据丢失。Pepper-GPT 的设计采用了客户端-服务器模式，每个客户端都有特定的角色，在用户输入指令后，相应的指令会被发送到 PepperController，从而引导机器人进行下一步操作。

实验和结果

这里进行了两项分析：一项是将选定的语音识别应用程序接口与其他应用程序接口进行比较，另一项是关于实验的最终结果。

第一步是评估语音识别。为了提高语音识别的准确性和速度，在实验之前，我们使用三种语音到文本应用程序接口进行了两次测试。

词错误率 (WER) 用于评估准确性。这是一种广泛使用的衡量系统准确性的指标；WER 是根据转述、删除和插入错误的数量以及参考词语的总数计算得出的。此外，识别时间也被用作一种性能指标，用于衡量模型将口语转化为文本的速度。这一点在实际应用中非常重要，因为在实际应用中需要即时有效地将语音转换为文本。

语音口音档案数据集也被用作数据集，在该数据集中，来自 177 个国家的说话者说出了相同的英语句子。这些口音的多样性非常适合评估所选语音识别模型的适应性和性能。该测试包括母语为英语和非母语为英语的国家/地区，以测试其在全球交流中的实用性；第二个测试使用 "日常对话 "数据集，其中包括日常口语对话。该测试旨在评估语音识别模型识别和转录常见对话的准确度。为了测试模型在实际应用中的性能，我们选择了现实世界中可能遇到的五种不同的对话场景。

第一次评估共分析了 24 个组，包括英语国家和非英语国家；测试使用了三种语音到文本 API，并将平均单词错误率（WER）和平均识别时间作为评估标准。结果表明，Whisper 的 WER 明显低于其他 API，表现出近乎完美的准确性。

其中，在英语国家中，美国的 WER 最低，而英国的 WER 最高。在非英语国家中，印度口音最难理解，而阿拉伯语和菲律宾语最容易理解。在平均识别时间方面，Whisper 能够在最短时间内将语音转换为文本。

第二个测试使用了 "日常对话 "数据集，以评估在五个不同对话场景中语音识别的准确性和效率。测试结果表明，Whisper 的 WER 值一直最低，准确率最高，平均识别时间最短。

通过这些结果，Whisper 的性能明显优于其他语音识别应用程序接口，证实了我们的研究方法的适用性。这证明了 Whisper 在语音到文本的转换中的有效性，在这种转换中需要高准确性和高效率，即使是在现实世界的应用中也是如此。

真人实验

为了探索将 ChatGPT 与 Pepper 机器人集成的意义，需要与真人参与者进行试验。奥克兰大学的学生将接受挑战，与集成 ChatGPT 的 Pepper 机器人进行自由对话，每次对话持续 15 到 20 分钟。

通过在校园公告栏上散发传单的方式招募参与者。对参与者的唯一要求是必须年满 18 周岁，能够用英语交流。

知情同意是人类参与式研究的一项基本伦理要求。这可以确保参与者充分了解研究的目的、风险和益处，以及他们自己的权利。参与者阅读 "参与者信息表 "并在 "同意书 "上签字表示同意。这一程序可保护参与者的隐私和机密，并确保研究符合道德标准。研究人员回答参与者的问题，帮助他们充分了解研究内容，并在知情的情况下做出参与决定。

实验开始前，向参与者简要介绍了集成系统的功能和特点，以及与机器人开始对话的指南。参与者还配备了麦克风，以提高语音识别的准确性。

在实验过程中，参与者可以自由地与放置在他们面前的 Pepper-GPT 机器人交谈，系统会将他们的对话转录成文本。如果需要技术协助，房间一角会有一名研究人员在场。与机器人的互动时间为五到十分钟，根据参与者的反应进行调整。

互动结束后，参与者填写了两份数字问卷，提供了他们的年龄、性别、院系、伦理考虑因素和以前使用 ChatGPT 的经验等信息。此外，还收集了他们与机器人互动的反馈意见。所有参与者都获得了一张价值 10 美元的礼品卡。

定量结果显示，参与者的英语能力不同，他们的体验也不同，但许多人认为与 ChatGPT 的互动逼真且引人入胜。不过，一些参与者认为系统的直观性还有待提高。总之，结果表明，实体机器人的存在丰富了 ChatGPT 互动。

在语音识别技术的评估中，人们发现词错误率（WER）和处理时间之间存在明显的相关性。尤其是具有复杂语音特征的英国口音显示出较高的 WER 和较长的处理时间，而澳大利亚口音则相反。事实证明，WER 和处理时间之间存在线性关系，尽管这种趋势并不总是适用于所有情况。

实验显示，参与者的英语水平对他们与 Pepper-GPT 的交互体验有很大影响。一般来说，Whisper 的语音识别功能在涉及口音的测试中表现良好，但英语理解能力较低的参与者不得不重复提问，直到机器人准确领会他们的意图。

约有 30% 的参与者拥有丰富的 ChatGPT 使用经验，他们对机器人性能的期望值高于偶尔使用的用户，而后者在实验结束时往往对系统的功能略感失望。其他挑战还包括难以决定何时与机器人互动，以及 Pepper 机器人面部识别技术的准确率较低，这就要求参与者多次尝试以引起机器人的注意。

研究表明，英语水平、用户期望、交互时间的清晰度以及 Pepper-GPT 的面部跟踪功能都会影响参与者的体验。这些因素是该系统下一次迭代中需要改进的重要方面，预计将有助于提高用户满意度和参与度。

总结

本文将 Whisper ASR 和 GPT-3.5 API 集成到 Pepper 机器人中，缩小了虚拟人工智能与实体机器人之间的差距，大大改善了用户体验。词错误率（WER）为 1.716%，平均处理时间为 2.639 秒，超过了谷歌的 ASR 服务。这提高了 Pepper-GPT 的理解能力，GPT 模块使机器人能够生成与上下文相关的响应，理解用户的指令并采取相应的行动，从而使交互更丰富，更吸引用户。

对参与者的调查结果显示，Pepper-GPT 在人机交互领域具有巨大潜力。超过 90% 的参与者认为该系统用户界面友好，一半以上的参与者认为机器人的手势恰当。参与者的积极反馈表明，他们喜欢 Pepper-GPT，并期待今后与该系统进一步互动。

通过进一步改进，预计Pepper-GPT 将发展成为一种更加自然、高效和愉悦的交互体验，进一步提升用户体验。