“We Need Structured Output”: 以用户为中心的大模型输出

发表机构：Google Research

这篇论文的核心是设计了一种系统，可以让开发者和用户对大型语言模型的输出施加结构性约束。系统的主要部分包括：

用户界面（GUI）：允许用户通过图形界面来定义他们希望LLM遵守的具体输出格式和语义约束。这种界面使用户能够快速、直观地设定约束，而无需复杂的编程。
后端处理：一旦用户设定了约束，这些信息将传递给LLM，指导其生成过程，确保输出不仅符合技术要求，还符合用户的具体需求。

本文有几个关键的挑战：

👉 挑战1：确保输出遵循结构化格式和适当的长度

问题描述：用户需要生成的输出必须符合特定的格式，如JSON或XML，并且长度合适。

解决方法：开发了一个名为ConstraintMaker的工具，它允许用户通过图形界面直接选择输出应该遵循的格式。例如，如果用户需要一个严格不超过20个词的摘要，他们可以设置这一具体参数，并由系统确保生成的内容不会超出这一长度。

👉 挑战2：确保输出遵循语义和风格指南，且不产生幻觉

问题描述：生成的文本需要在不产生错误信息的情况下，遵守特定的语义和风格指南。

解决方法：通过高级约束，用户可以指定输出应遵循的详细语义规则，如正确使用技术术语或维持一定的正式或非正式语气。系统将这些约束直接应用于LLM的生成过程中，确保输出内容的语义和风格与用户的期望一致。

结合上面亮点挑战，举一个真实场景的例子，假设一个视频游戏开发者需要为一个新游戏角色生成一个详细的个人资料。开发者可以使用ConstraintMaker来指定输出应为有效的JSON格式，并包含角色的姓名、年龄、子女姓名和玩家是否可以控制角色的特定属性。通过这种方式，LLM将生成一个精确符合这些要求的角色描述，直接用于游戏开发过程中，无需额外的格式调整。

一些有趣的发现：

用户中心的输出约束需求：

研究发现，用户不仅需要低级别的约束（如确保输出遵循特定结构或格式），还需要高级别的约束（如遵循语义和风格指南），以保证输出不产生错误信息（幻觉）。

例如，用户可能需要生成的内容严格遵守Markdown格式，或者需要生成的角色描述符合特定的JSON结构，这样它们就可以直接被应用程序代码解析和利用。

对开发者和用户的双重利益：

引入约束机制可以简化开发者在集成LLM时的工作流程，减少试错的时间和精力，同时保证生成的输出更加可靠和符合预期。

对于用户而言，能够确保生成的内容符合特定的用户界面（UI）和产品规格，提高用户对LLM-powered工具和系统的信任和满意度。

使用图形用户界面（GUI）进行约束：

论文中提到，用户更倾向于使用图形用户界面来定义输出约束，而不是通过自然语言。这是因为GUI提供了更直观、可靠和灵活的方式来原型和测试约束。

例如，如果需要确保输出是有效的JSON格式，用户可能更愿意通过点击一个"JSON"按钮来实现这一点，而不是在每次提示中键入"输出为JSON"。

ConstraintMaker工具的创新设计：

该工具允许用户在一个图形界面中可视化地定义和测试LLM输出的约束。这种方式不仅减少了输出的不确定性，还增加了用户在定义约束时的灵活性和控制感。

总的来说，这篇论文提出了一种创新的方法，允许用户直接通过图形界面定义对大型语言模型输出的结构和语义约束。这不仅提高了LLM在实际应用中的可用性，也极大地简化了开发过程，使得非技术用户也能轻松利用LLM的强大功能。