人工智能如何将人机交互提升到新水平

随着人工智能模型在语音识别和合成、文本处理和多模态性方面的卓越表现，终极语音用户界面可能很快就会无处不在。欢迎来到雲闪世界。

添加图片注释，不超过 140 字（可选）

那是一个典型的星期五下午，我们刚刚结束了一个漫长的一周工作，这个项目旨在开发一种全新的增强现实和虚拟现实分子图形概念和应用程序，这时，我发现自己正在与我的朋友兼同事进行激烈的讨论。他是一名"铁杆"工程师、网络程序员和设计师，在网络开发领域工作了十多年。作为一个以效率和对每一行代码的控制为荣的人，尤其是一个始终将用户和用户体验放在心上的人，我的朋友嘲笑我关于语音界面即将成为常态的想法......

"语音界面？它们不成熟、笨拙，而且坦率地说，有点令人毛骨悚然"，他虽然没有用这些确切的词，但确实是这个意思，并表达了科技界许多人的共同感受。这已经是在他说服了大约 30-50% 之后，我们用于分子图形和建模的增强/虚拟现实工具绝对需要这种人机交互，因为由于用户的手忙于抓取和操纵分子，他们没有其他方式来控制程序，例如运行命令等。

更广泛地说，语音界面（或语音用户界面，VUI）可以改变各种手忙脚乱的工作或娱乐情况，并为各种残障人士提供便利，与常规 GUI 结合，它们甚至可以包容视觉、听觉和动作障碍人士。所有这些观点使得从技术和 UX 设计的角度讨论和评估这个主题非常重要，而且由于技术发展速度很快，我们必须经常这样做。此外，正如我将在这里讨论的那样，我认为它已经到了可以推动的地步，这与我同事的观点相反，后者仍然相当消极。

不过，我承认，我同事的担忧并非毫无根据。他认为，与计算机的语音交互仍然存在不准确、令人沮丧的重复需求以及普遍缺乏流畅性的问题。在某种程度上，我确实知道他是对的。（但......请继续阅读！）

简短但相关的绕行：星际迷航中想象的语音用户界面

在《星际迷航》预测未来用户体验的文章中，戴利·威廉 (Daley Wilhelm)讨论了《星际迷航》中的 VUI 如何设定用户对技术的期望，从而在很大程度上塑造了我们今天与设备的交互方式。企业号船员用来控制飞船的无缝、直观的语音命令代表了人机交互的理想状态......与计算机交谈就像与另一个人交谈一样。《星际迷航》正确地预测了 iPad 和手势，甚至多点触控显示器的某些方面，那么......它是否也正确地预测了 VUI 的未来？

完全相同的东西，甚至更加先进，来自《星际迷航：下一代》的高度复杂的机器人海军少校 Data 和来自《星际迷航：航海家号》的紧急医疗全息医生都能够进行非常复杂的对话 - 甚至自己使用基于语音的思考（进一步绕道：人类/人工智能语言模型是否与人类/人工智能相关？）

回到戴利·威廉姆，她的关键观点是，虽然《星际迷航》对未来的设想超前于时代，但我们现实世界的技术还没有完全赶上------至少没有像该系列想象的那样。在《星际迷航》中，船员主要通过语音命令与飞船的计算机进行交互，无论是访问信息、控制飞船功能，还是复制食物和饮料------但正如她所举例子的那样，存在局限性。

这种语音界面将成为人机/机器人/全息图与计算机交互的主要模式的未来愿景令人着迷，对于像我这样的许多人来说，这是一个令人向往的目标。抛开我的主观意见，我在开篇段落中提出了所有优点。

在《星际迷航》中，能够发出复杂、上下文丰富的命令并收到准确、及时的响应似乎是技术潜力的自然延伸。例如，皮卡德船长可以要求喝特定口味、特定温度的茶，并立即得到他想要的东西------没有麻烦，没有误解。但正如戴利·威廉姆 (Daley Wilhelm)指出的那样，Siri、Alexa 和 Google Assistant 等现代语音助手很难满足这些期望，而且差距很大。今天的用户经常发现这些系统无法实现《星际迷航》让我们梦想的对话式、情境感知式交互。另一方面，戴利·威廉姆 (Daley Wilhelm)举了一个《星际迷航》计算机无法真正理解用户的例子，当 Geordi LaForge 要求计算机播放"轻柔的拉丁节奏"音乐时，计算机最初无法提供他想要的确切音乐类型，这凸显了自然语言处理中模糊性的挑战。我从她的文章中引用了这个具体的例子，因为我稍后会在现代（现实世界，2024 年）技术的背景下回顾它。

但我的观点是， Daley Wilhelm所讨论的局限性在当今许多用户和开发人员（包括我的同事）中引起了共鸣。与《星际迷航》中描绘的无缝交互不同，我们当前的 VUI 经常会遇到复杂的查询，难以理解上下文，有时还会返回不相关或不正确的响应。对回忆的依赖，即用户需要确切知道他们想要询问或命令什么，与用户通常期望的更自然的基于识别的交互形成鲜明对比。因此，在使用现代 VUI 时，我们经常发现自己需要适应技术------学习特定命令或以系统可以理解的方式措辞问题------而不是技术适应我们。但我的观点（即将在下面展开）是，当前的技术可以提供更多的东西，而且可能并没有那么遥远。

特别需要注意的是，自戴利·威廉姆发表文章以来，技术格局已经发生了相当迅速的变化。例如，到 2023 年 1 月她的文章发表时，OpenAI 的第一个真正庞大且"智能"的语言模型 GPT-3 才刚刚在几个月前发布------我在 ChatGPT 发布之前就通过 API 尝试了它，惊讶地发现它可以为更流畅、更自然的 VUI 开辟可能性：

然后，我们都知道 GPT-3 之后发生了什么：OpenAI 的 GPT 家族的大型语言模型 (LLM) 取得了进一步的进步，再加上 Meta 的 LLama、谷歌的 Gemini 和许多其他模型，它们每个月都显得越来越"聪明"。人工智能接管了一切，它通过 LLM 做到了这一点。

此外，人工智能革命还冲击了语音识别技术领域，OpenAI 的 Whisper V3 等模型（以及Gladia等更易于部署的包装器）的效果比几年前的模型好得多。Whisper v3 等现代语音识别模型仅能够转录人的口头输入，还能检测各种说话者（分类）、标记、加盖时间戳、自动检测和切换语言等：

语音识别技术早已存在，甚至被内置到 Google Chrome 等一些产品中（允许程序员非常轻松地在他们的网络应用程序中构建语音识别和语音合成功能！），但最近 2-3 年出现的新系统使现实更接近星际迷航设定的期望。

语音合成也是如此，虽然它已经存在了一段时间，但说实话，它的声音有些诡异，现在已经有了很大的改进（尤其是我不得不推荐Talkify.net）。我认为所有这些进步都真正开始填补Daley Wilhelm强调的空白，使我们更接近理想的 VUI 体验，这种体验主要依赖于自然语音。

此外，截至 2024 年 8 月，处于高级阶段但尚未大规模发布的系统（例如 OpenAI 推出的语音 GPT 模型，该公司仅供少数用户测试）具有内置处理输入和输出声音和语言的能力，这是"全能"模型的核心。需要明确的是，"声音"不仅是语音，而且原则上是任何其他类型的声音，这要归功于语音识别、语音合成和语言处理模型之间没有分离（正如之前可以做到的，我在上面的一个例子中展示了这一点），但它实际上是一个单一的"大脑"，可以原生处理一切。

VUI 必须具备的四个"技术要素"

经过对 VUI 的长期思考，以及自己进行过多次测试，我得出了实现真正流畅的语音人机交互至少需要四个关键要素，这些要素必须达到能够无缝协作的复杂程度。它们是语音识别、理解、文本处理和语音合成。每个要素在创造自然直观的体验方面都发挥着至关重要的作用。

首先，语音识别必须准确且适应性强。它不只是将口语转录成文本，而是要高度精确地转录，无论说话者的口音、方言或专业术语如何。因此，这项技术需要具有可调整性，例如可扩展与系统特定应用相关的语法，并且可能能够从与特定用户的互动中学习，通过适应他们的口音、词汇选择和其他细微差别来不断改进。只有这样，语音识别才能变得足够可靠，可以用于日常使用，即使是轻微的误解也会导致极大的挫败感。许多现代人工智能语音识别系统都具有这样的能力：它们可以被提示注意特定的单词或内容，微调以对某些语法更加敏感，等等。

接下来是理解问题：系统掌握单词背后含义的能力。无论这种理解是真实的（本身就是一件大事，更与通用人工智能系统、AGI 以及我们能否在计算机中重现智能这一价值万亿美元的问题相关）还是通过图灵测试的复杂幻觉，它都必须足够令人信服，让用户感觉他们正在进行真正的对话。这不仅涉及解析单个命令，还涉及理解上下文、意图和人类语言的微妙之处，例如语气、幽默或隐含含义。

文本处理同样重要，因为它是输入、输出和相当一部分"思考"的支柱。文本处理技术的核心部分必须能够跟踪正在进行的对话、保持上下文并在对话发展过程中做出适当的反应。同样，它不仅仅是处理单词，而是以一种与对话的自然流程相一致的方式进行处理，让互动始终感觉连贯且相关。

最后，语音合成必须产生让听众感觉自然的输出。合成语音应该以反映人类语音模式的方式发出声音，包括节奏、语调和情感细微差别，以避免出现某种"声音恐怖谷"（点击此处了解这个迷人的主题）。当语音合成达到足够像人类的水平时，交互将不会太过机械化，从而摆脱恐怖谷，并增强整体用户体验。

当这四种技术足够成熟并发挥出最佳协同作用时，结果应该是我们人类真正想要使用的 VUI。然而，如果我们打算实现像星际迷航中的计算机那样的 VUI，与其他软件和硬件系统集成的问题仍然存在；然而，由于前面讨论的隐私和跨软件和跨设备兼容性问题，这可能永远不会发生。

我对这四种技术成熟度的评估

语音识别：7/10 语音识别取得了重大进展，尤其是在最近几年，在许多情况下都变得非常可靠，特别是在安静的环境中以及说话者口音标准的情况下。然而，在嘈杂的环境中或处理重口音或言语障碍时，准确识别语音仍然存在挑战------尽管我必须说，一些现代模型，如 Whisper v3，有时表现出意想不到的好（但有时却不尽如人意！）。虽然这项技术很强大，而且越来越有效，但在某些微妙或复杂的情况下仍然不足。换句话说，截至 2024 年，它几乎没有达到这个目标。

理解（和思考）：8/10 理解，尤其是通过 LLM 的视角，已经达到了令人印象深刻的水平。这适用于多个模型，可能至少适用于LMSYS ChatBot Arena排行榜的前 10-20 名。

正如我将在下文中阐述的那样，现代 LLM 能够处理复杂的对话、掌握背景并生成类似人类的响应。这种能力使它们能够有效地模仿人类的理解，即使在多方面的对话中也是如此。

LLM 还可以"思考"，可以直接思考，也可以通过编写和执行代码来思考，因此功能非常强大。此外，此功能还提供了插件，可以将 VUI 连接到其他软件和硬件系统，实现全面集成。

尽管如此，这项技术并非完美无缺，尤其是在需要更深入地理解上下文或歧义时。总体而言，得益于法学硕士的进步，这项技术相当不错。

文本处理：9/10 文本处理，尤其是由 LLM 提供支持的文本处理，已经变得非常先进。这些系统可以保持上下文，管理多轮对话，适应各种（甚至不断变化的）语言，并生成不仅符合上下文而且在扩展对话中连贯的响应。该技术在理解和生成文本方面表现出色，使其成为流畅 VUI 所需的四个支柱中最易于部署的支柱。

语音合成：5/10 语音合成虽然能够产生清晰、有时能引起情感共鸣的语音，但听起来往往不够自然。许多合成声音仍然具有相当"机器人"的特质，缺乏人类语音的微妙和自发性。这在较长的交互中尤其明显，此时语音的合成性质变得更加明显。目前，我认为在达到流畅、自然的对话水平之前，还有很大的改进空间。

话虽如此，我认为一些语音合成系统（例如 Chrome 内置的系统或 Talkify.net 提供的系统）对于只需要说出短句的 VUI 来说已经相当不错了。

人工智能的作用

上面你已经看到我的讨论和争论如何迅速转变为人工智能。这并不奇怪。

传统 VUI 的一个关键问题是其处理复杂对话语言的能力有限，尤其是在语音识别和"思考"以产生响应的阶段（然后，语音合成工作得更可靠，尽管它还不是很自然）。正如我在上一节结尾处所暗示的那样，法学硕士正在通过提供以前无法实现的、十年前无法想象的理解和上下文相关处理水平来改变游戏规则。

现代 LLM 能够以一定的方式处理和生成语言，从而让交互感觉更自然，而不是"机械化"。这些模型"理解"上下文，识别语音、术语和内容中的细微差别，并可以遵循对话的流程，所有这些元素都解决了对 VUI 当前状态的大多数批评。

例如，回到《星际迷航》的例子，通过整合 LLM，现代语音助手可以完美处理 Geordi 对一些带有"轻柔拉丁节奏"的音乐的请求，实际上比《星际迷航》中描述的通过语音成功进行人机交互要复杂得多。如果你向现代 LLM 要求"一些带有轻柔拉丁节奏的音乐，比如西班牙吉他"，我相信它不会让你失望，不仅能理解请求，还可能跟进"你想要一些欢快或更轻松的音乐吗？"------从而展示出进行有意义、非常合理的对话的能力。说得极端一点，有相当不错的人工智能模型可以生成音乐......所以用 21 世纪技术构建的程序甚至可以为 Geordi 创作一首完全根据他的要求量身定制的歌曲！

同样，人工智能语音识别技术的进步也大大降低了语音命令的不准确性和令人沮丧的程度。Whisper V3 等系统由 OpenAI 开源，许多公司提供基础设施并帮助调整和运行模型，使语音界面能够准确地转录和理解口语，即使在嘈杂的环境中或带有口音、多人一起交谈和其他复杂情况下也是如此。此外，现代基于人工智能的语音识别系统可以自动检测语言，即使语言随时发生变化，也可以检测不同的说话者，分配时间戳，区分同音词，删除脏话，还可以检测某些单词，从而允许结合行话和当地表达方式：

所有这些现代技术的功能无疑使语音识别比 Siri 等助手如今所能做到的更加灵活，无疑使我们更接近《星际迷航》所设想的无缝交互。尽管我同意，我们还没有到达那里。

下一步，即多模态模型或 AGI（正如我上面简要讨论的具有集成声音处理的下一个 GPT 模型），会成为关键的最后转折吗？

彻底缩小差距

撇开语音识别已经接近完成但尚未完全实现，以及语音合成在最近几年才刚刚开始让人感觉自然的事实，还有一个大问题，戴利·威廉姆 (Daley Wilhelm)在她的《星际迷航》启发文章中指出并讨论了这个问题。正如她所指出的，当今的 VUI（我补充说，即使是现代技术所能提供的）仍然缺乏跨系统的深度集成，无法实现该系列中描述的那种命令和控制功能。虽然现代人工智能模型可以完美地理解请求，甚至"思考"它们并相应地进行处理，但在实际执行超出其具体表现的任务时，它们仍然不足。因此，看似复杂但实际上相当简单的功能变得困难甚至不可能，这仅仅是因为软件与设备上运行的其他软件缺乏集成，更不用说与其他设备了------除非是经过专门编码，就像我们为分子图形的 AR/VR 应用程序所做的那样。

说到最后一点，超越纯软件 AI 模型的一种方法是让其直接与现实世界进行物理接触，也就是将其融入机器人。这几乎就是 OpenAI 试图通过其"AGI 机器人"系列实现的目标，其中 AGI 代表通用人工智能。

但对于这样的机器人，或者与其他设备深度集成的任何其他设备，甚至与单个设备中其他软件集成的软件，隐私问题都会迅速浮出水面。这些始终开启、始终监听的设备可能过于侵入，必须受到监管------这是一个我不会涉足的困难领域，但至关重要。用户需要感到安全，他们的数据受到保护，他们的设备不会默默记录他们说的每一句话。因此，这个问题是 VUI 在日常生活各个方面广泛采用的一大障碍。

那么，我们和计算机是否已经准备好通过语音进行日常交互了呢？

我的看法是，人类可能还没有做好准备，但计算机几乎已经达到了这个程度！

随着我们不断改进语音界面技术，语音界面成为人机交互常规部分的可能性越来越大。语音识别、语言处理和语音合成方面的进步正在改变我们与设备交互的思维方式。曾经的科幻世界现在正逐渐接近我们的日常生活：在过去的 5-10 年里，许多中档汽车已经接受语音命令，允许驾驶员拨打电话或接听电话；就像 Siri 一样，Alexa 和其他家庭系统允许用户通过自然语言快速在线查找信息、要求播放音乐、控制灯光以及执行其他一些操作。我们的手机对我们的需求越来越敏感，可以通过语音命令接受输入，也可以大声朗读输出。您正在阅读本文的平台Medium在大约一年前整合了非常自然的语音合成系统，可以为您朗读故事。我相信您可以从您的环境中找到更多示例，即使是基本的 VUI 也非常有用。

编程本身变得越来越容易，从而允许开发人员整合更好、更大、更复杂的 VUI。我之前向你展示了一些示例，这里还有更多示例 --- 所有这些都带有 Web 风格，就像我喜欢为我的项目做的那样，因为这允许我的原型和应用程序立即在所有设备上运行：

请注意技术集成的作用，这在基于 Web 的内容和 Web 应用程序中尤其容易且富有成效：

未来

回顾这些技术的发展轨迹，很明显，虽然我们还没有完全实现未来愿景中描绘的无缝体验，但我们肯定正在接近它。用户期望与 VUI 实际能够实现的差距正在缩小。随着不断发展，我们可能很快就会看到语音交互不仅是一种新奇事物，而且是一种与技术互动的首选方式------甚至可能让企业号的船员感到自豪！

事实上，我认为技术已经在这个方向上发展了很多，计算机现在比人类更能进行基于语音的交互。

也许再过十年左右，今天的虚拟助手，如 Siri 和 Alexa 或你车上的虚拟助手，将被人们铭记为开创这一切的"脾气暴躁的祖父母"。他们为语音界面奠定了基础，让我们能够仅使用声音来控制设备、提问和执行至少一些基本任务。我在这里讨论的技术目前正在开发中，但发展非常迅速，尤其是下一代多模态 LLM 和预期的 AGI，它们（我认为、我希望或希望......）有望实现不仅功能齐全而且真正具有对话性的 VUI，并且不仅限于语音，而是语音和图形功能的完美结合。这些系统可以（或者更确切地说，我相信它们会）处理复杂的命令，理解语言中的细微差别，并以自然而引人入胜的方式做出回应。

键盘、鼠标外设和平板屏幕长期占据主导地位后，人机交互即将开始演变。我们最好接受它。

在这个世界里，通过语音与技术互动可能成为一种习惯，就像打字或点击屏幕一样。从口述电子邮件到控制智能家居，应用范围广泛且多种多样。可访问性将提升到新的水平，允许使用更具包容性的软件，同时也意味着在驾驶或工作等情况下更少的干扰。

当然，挑战依然存在。在提高准确性、处理不同的口音和方言以及确保这些系统能够在长时间对话中保持语境方面，仍有许多工作要做。但正如我们上面所看到的，法学硕士和现代语音识别系统已经接近掌握这些挑战。然而，始终需要在技术进步与用户舒适度和隐私问题之间取得平衡。

那么，我们和计算机是否已经准备好通过语音进行日常交互？我相信我们比以往任何时候都更接近这一目标，而且我确信在某些应用中我们无法摆脱语音------例如增强现实和虚拟现实系统、在帮助某些残障人士的应用、在车辆中、在某些工业环境中，等等。

与设备对话成为我们日常生活中常见且无缝衔接的一部分可能只是时间问题。作为开发人员、设计师和用户，我们应该接受这些变化，应对挑战，总的来说，我们必须帮助塑造这个令人兴奋的未来。

感谢关注雲闪世界。（Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员）