到目前为止,我们主要了解了预测型和生成型人工智能的内部机制与应用,它们构成了现代 AI 的基础。预测型 AI 分析现有数据并提取模式,而生成型 AI 则利用这些模式生成新的数据和内容。我们大多数人都梦想拥有能自动化完整工作流和流程的 AI,从而让我们有更多时间和精力享受生活,发挥最大潜能。然而,实现这一愿景的关键拼图仍未完全具备。我们的 AI 还无法与外部世界交互、从中学习,也无法为未来制定战略和规划。这种具有自主行为能力的代理式 AI 数十年来一直是研究机构、AI 爱好者和科技巨头的研究重点,但多次面临严重的可行性限制。
随着语言模型(LM)的兴起,代理式 AI 获得了新的动力。语言模型拥有丰富的语言和概念知识,为代理提供了强大的"大脑",使其能够灵活运用多种外部工具完成不同任务,比如检索信息、撰写和发送邮件、执行或阻止交易等。代理能够利用自然语言的无限表达能力接收指令、推理并制定对外部世界的行动方案。这使得 AI 产品开发者能够自动化用户更复杂的工作流。图9.1 对比了使用多种数字工具的手动工作流和基于语言模型代理的自动化版本,突出了后者带来的效率提升。
这里需要提醒一点:使用代理意味着我们正处于现代 AI 模型能力的前沿,因此在评估用例的可行性时必须非常谨慎。构建代理原型非常有趣,但将其推向面向外部用户的生产环境则是完全不同的挑战。目前,面向生产的代理主要有两个方向:
80% 对 20% 场景------当大部分任务相对容易自动化,而复杂任务仍由人工处理时,代理往往被部署。比如 Zendesk、Intercom 和 Salesforce Einstein 都提供客服代理。
内部试用(Dogfooding) ------熟悉 AI 的产品开发者打造能支持自身工作的代理,再推广给同样接受 AI 不确定性和失败的用户。例如,Devin、Replit 和 Imbue 等公司提供编程代理。
本章将以内部试用场景为例,完整介绍一个代理的搭建过程,示例为一个产品管理代理,协助完成产品发现、优先级排序和路线规划等任务(见图9.2)。作为产品经理,你将积极参与设计 AI 代理的每个组成部分,包括选择其访问的工具、管理记忆和定义规划能力。你还将设计人与 AI 之间的交互界面,确保无缝的人机协同(Human-in-the-Loop,HITL),避免用户负担过重。请准备动手尝试不同的提示和配置,测试和迭代越多,越有可能打造出多功能且高效的代理。
本章后面你还将学习如何在追求创新的同时,结合对当前技术局限的现实认知保持平衡。在第9.3节,我们将探讨 AI 代理面临的关键挑战及应对方法;在第9.4节,我们会探索多代理协作、自治企业等长期机会,帮助你了解当下可实现的目标以及未来几年的发展前景。你还会获得实用建议和最佳实践,以便在构建代理时管理复杂性、降低风险。
本章内容将在第5至第8章介绍的生成式 AI 概念基础上展开。为了全面理解代理式 AI 对你产品的整体意义和机遇,请准备好这些章节的笔记,并再次回顾相关内容。
9.1 让语言模型访问外部工具
代理式 AI 关乎"代理能力"------即 AI 在现实世界中自主决策和采取行动的能力。目前,无论是预测型 AI 还是生成型 AI,都不具备这种代理能力。我们通过类比人类活动来理解这一缺失环节。大多数人类活动都依赖某种外部工具。木匠使用锯子和锤子,程序员离不开代码编辑器,音乐家若没有天赋嗓音,也需要乐器。这些工具是延伸外部世界的手段,使我们得以实现大脑中的美好构想和意图。
语言模型和其他 AI 模型同理。它们本身能完成分析、推理、规划和反思等多种智能活动,但要真正采取行动、影响世界,就必须使用外部工具。例如,协助产品管理的代理可能需要上网进行全球调研,给用户发邮件确认产品发现计划,或者访问专业软件进行优先级排序,以弥补语言模型在该领域技能的不足。本节将介绍可用工具的主要类别,并展示语言模型代理如何使用它们。
当代理收集了来自多个来源的原始数据后,需对其进行分析并提取可执行的洞察。然而,语言模型直接处理数据存在局限性。为克服这一点,你可能需要将数据处理、推理和洞察提取"外包"给外部工具。这些工具可以是基于规则的(例如功能强大的计算器)或神经网络工具,如第4章讨论预测 AI 时开发的用户分群模型。以下是代理此时可能提取的一些示例洞察:
AI 代理正从简单自动化工具进化为协作伙伴,改变用户的交互方式。用户界面(UI)设计在塑造这些交互中起关键作用,需平衡效率、透明度和适应性。主要代理界面类型包括:
基于聊天的代理------提供自然、直观的对话交互体验,但可能线性且响应较慢,需用户持续关注 AI 处理任务。为改善这一点,现代 AI 系统支持"边想边说"式的流式输出,用户可实时看到代理的中间推理过程,而无需等待最终答复,提升透明度和信任,令交互更动态、更具参与感。
后台代理 ------代理在后台自主执行任务,仅在必要时呈现结果。通常通过仪表盘、邮件或电子表格管理,用户可专注于其他工作,AI 异步运行。随着 AI 从被动辅助走向主动解决问题,这种模式日益流行,代理会随着时间自主优化方法。示例见 Greg Nudelman 的文章《代理体验设计的秘密》(mng.bz/26em)。
协作代理------代理与用户直接协作,实现无缝的人机共创。代理根据人类输入提出建议、迭代和调整,类似人类协作者。例如,Windsurf、Cursor 和 GitHub Copilot 等 AI 驱动开发工具会跟踪用户操作,避免建议冲突,并动态集成代码修改,确保 AI 贡献促进而非干扰工作进程。
AI 代理从任务执行者进化为共创者,重新定义了我们与 AI 的交互。欲深入了解 AI 代理的新兴用户体验模式,可参考 LangChain 的"代理体验设计"系列(mng.bz/qR96)。
图9.5 随着代理变得更加可靠,你可以减少人工参与,简化用户界面。
随着时间推移,人工与 AI 工作的比例将发生变化(见图9.5)。你可以从有限的自动化开始,收集更多数据,优化工作流程,并通过持续准确的结果建立信任。随着你和用户对代理可靠性的信心增强,可以逐步提升自动化程度。这也会简化界面,让你摆脱用户之前需要调节的按钮、滑块等控件。
另一个关键因素是用户对 AI 的亲和力------即他们对 AI 应用行为和不确定性的接受程度。不习惯这种动态的用户可能会觉得"人类在环"(HITL)交互过于复杂。这也是为什么许多 AI 代理专注于熟悉或相近的领域,如编程或用户体验设计,那里的用户更容易接受。相比之下,在金融、汽车或医疗等行业应用 AI 代理更为困难,因为这些领域的用户对 AI 驱动流程的熟悉度较低。
这带来另一个挑战:虽然可以通过巧妙的提示让语言模型输出结构化内容,但其初始训练是生成非结构化且带有概率性质的结果。因此,输出总存在一定非确定性。相比之下,软件函数和 API 需要明确结构的输入。为此,语言模型必须提供正确格式的输入。输入结构越简单,代理出错概率越低,这也是许多工具采用极简输入结构(例如仅传入查询字符串)的原因。
智能代理的概念------自主实体,具有人类般的整体环境理解,能够选择最佳工具和行动方案以实现目标------已经存在数十年。在生成式 AI 兴起之前,这一愿景虽引人入胜,却受限于严重的可行性问题。如今,语言模型正颠覆这一领域,开辟全新天地。它们为代理提供强大的"大脑",并使非技术人员(如产品经理和领域专家)也能参与代理开发。
LangChain (python.langchain.com/)是最知名的通用框架之一,支持语言模型集成和代理实现。它提供灵活的商业及开源 API 接口,以及基于链的丰富灵活逻辑,可将工具整合进工作流和应用。LangChain 还支持访问大量工具库(如"人类作为工具"),并允许集成自定义工具。尽管功能强大,但有时设计过于复杂,导致开发效率和易用性下降。
刚开始你可能察觉不到这些挑战------代理项目可能启动良好,但最终会遭遇令人头疼的"最后一公里"问题。代理虽然能处理大部分任务,但剩余的边缘案例往往难以发现和修复。此时,你和利益相关者可能开始怀疑自动化的价值。随着投入更多开发和错误修正时间,回报递减,达到当前 AI 模型能力的极限。让我们探讨一些策略,有效缓解风险并绕过现有限制。
9.3.2 克服代理系统的局限
AI 代理是前沿技术。一方面,它们受限于当前 AI 的技术水平;另一方面,今天看似不可能的事,明天可能成为现实。想在此领域创新,必须准备好把握新机遇。采用模块化、渐进式开发方法,结合对技术动态的持续监控与评估,有助于保持敏捷,抓住相关创新。
渐进式开发
构建 AI 代理系统时,应采取保守策略。先从小规模实现开始,边测试可行性、质量和延迟边推进。确保在确认方案有效前不盲目投入复杂解决方案。随着收集数据和反馈,逐步增加系统复杂度和功能,每次迭代都增添价值,避免引入不必要风险。例如,你可以增加代理使用的工具数量,或让其与其他代理协作。随着时间推移,也可以提升代理系统的自动化程度。一个附带的好处是,通过去除部分用户控件和交互,界面通常会变得更简洁、更直观。
最后,正如本书多次强调的,需高效监控 AI 领域动态。新进展日新月异,应持续评估其与产品的相关性。Anacode 的 AI 雷达(anacode.de/ai-radar)提供了当前工具、最佳实践和 AI 代理用例的动态且直观概览。
9.4 AI 代理的发展趋势与机遇
到目前为止,我们从相当务实的角度审视代理,重点关注单个代理的实现、挑战和局限。随着 AI 的发展,这些挑战预计将逐步被解决,使我们更接近大规模自动化的宏伟愿景。本节将介绍三个有趣且先进的代理应用,这些应用备受关注,并可能在未来几年投入生产。这些长期机遇希望能激励你关注代理系统不断演进的技术前沿,也能为你的产品战略带来清晰思路,帮助你评估 AI 领域日益增量变化的意义和价值。
数据访问摩擦------目前,挖掘组织数据潜力往往是少数数据科学家和分析师的专利。大部分员工不熟悉常用数据科学工具(SQL、Python、R等)。为获得所需数据,他们需通过分析师或 BI 团队,将业务问题"翻译"成数据语言。此过程容易产生摩擦和低效,比如数据延迟交付或问题已过时,需求未准确转化为分析查询导致信息丢失。此外,高质量洞察生成需要迭代过程,而循环每多一步都不利于此。反之,这种零散交互还会打断宝贵的数据人才,分散他们对更战略性数据工作的注意力。
自主企业的愿景带来系统性问题,例如:当大部分当前活动实现自动化后,人类将从事何种工作?在完全自动化的商业世界,企业如何实现差异化?竞争优势是否仅来自代理和 AI 模型的表现,还是品牌塑造、设计和独特愿景等个性化创造仍然发挥作用?这些问题伴随着恐惧和不确定性,可能阻碍采纳,如担忧现有岗位消失。为解答这些问题,我们需要与未来用户共同创造,逐步设计人机合作伙伴关系,让人类继续负责构建和"配置"代理系统。这也是第10章的重点。
本节展望了自主 AI 作为现代企业全球挑战解决方案的一部分。多代理系统使个别代理能力倍增。数据驱动组织利用 AI 挖掘数据资产价值。自主企业将这些数据落地,自动化运营,持续学习结果并适应变化。虽然这些是复杂代理系统的未来愿景,许多实际工作已以渐进方式响应这些挑战。通过持续监测领域空白和发展动态,你可以向代理系统的可行性前沿迈进,发掘这些颠覆性愿景支持下的新商业机会。此外,提前在产品中准备和搭建代理,也能让你快速集成未来更强大的语言模型版本,不断提升代理 AI 的成熟度和能力。