LangChain Agent：赋予 LLM 行动力的神秘力量

LangChain Agent 是什么？有什么用？基本原理是什么？

那么多 Agent 类型在实际开发中又该如何选择？

如果以上有你想知道的答案，那么请往下看

那么如果没有呢？看看嘛，反正又不吃亏 (～￣▽￣)～

What & Why

丹尼尔：蛋兄，我又来了。今天主要想跟你深入了解下 LangChain 中的 Agent

蛋先生：Agent，知道中文是什么意思吗？

丹尼尔：这可难不倒我，我可是过了英文 8 (′▽`〃)... 4 级的男人。不就是代理的意思嘛

蛋先生：哈哈，你还挺自信的嘛。没错，Agent 就是代理。代理啥意思呢？小明代理小红去办理事务，就是小明因某些原因没法做这件事，需要小红出面去做这件事

丹尼尔：蛋兄，恕小弟我愚昧，还请更通俗易懂地展开说说

蛋先生：你知道大脑和身体的关系吗？

丹尼尔：大脑会思考，而身体会根据大脑的指令行动，比如拿东西，走路等。

蛋先生：说得没错。大脑本身缺乏行动能力，所以需要有身体来实现它的意图，这里可以把身体看成是大脑的代理

丹尼尔：这我明白，所以 Agent 就是 ...

蛋先生：LLM 拥有强大的推理能力，就像我们的大脑。Agent 嘛，当然就像我们的身体。通过 Agent，就可以让 LLM 走起来。(⚆_⚆) 哦不，就可以让 LLM 拥有推理能力之外的其它能力

丹尼尔：概念上是理解了，这个推理能力之外的其它能力都有哪些呢，能举一个例子让我更加清晰吗？

蛋先生：你可以试下直接询问 LLM 当前时间，你觉得它回答得了吗？

丹尼尔：哦，这肯定不行，就算能回答也是胡说八道

蛋先生：恩，LLM 的知识受限于训练数据，实时信息是它的软肋。但有了 Agent，这个问题就难不倒它了

How

Agent 的基本原理

丹尼尔：哇哦，Agent 拥有让 LLM "走"起来的神奇力量，我对它是如何实现的好奇不已！

蛋先生：老规矩，先来瞧瞧一段代码示例

python 复制代码

import os
from langchain import hub
from langchain.agents import create_structured_chat_agent
from langchain.agents import AgentExecutor
from datetime import datetime
from langchain.tools import tool
from langchain_community.chat_models.fireworks import ChatFireworks

@tool
def get_current_time() -> str:
    """Get the current time."""
    return str(datetime.now().strftime("%Y年%m月%d日 %H时%M分"))


os.environ["FIREWORKS_API_KEY"] = '<FIREWORKS_API_KEY>'
fw_chat = ChatFireworks(model="accounts/fireworks/models/llama-v2-70b-chat")
tools = [get_current_time]
prompt = hub.pull("hwchase17/structured-chat-agent")

agent = create_structured_chat_agent(fw_chat, tools, prompt)

agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
agent_executor.invoke({"input": "What's the date today?"})

丹尼尔：每个单词我都懂，毕竟我是过了英语 4 级的男人。但...你还是赶紧解释一下吧！

蛋先生：代码嘛，我就不多解释了。我只想通过简单地拆解下上面代码的内部工作流程，从而介绍 Agent 是如何运作的

第一步，Agent 将用户的问题直接扔给 LLM

第二步，LLM 推理出可以使用 get_current_time 这个小工具来回答这个问题，于是它用 JSON 的形式告诉 Agent 去执行这个工具。

第三步，Agent 将 get_current_time 工具的执行结果呈现给 LLM

最后一步，LLM 把工具的输出内容进行总结，然后把答案扔给 Agent。Agent 把这个答案呈现给用户，大功告成！

这是一个最简单的流程。然而，当面临更复杂的问题时，LLM 会将问题分解为若干子问题，然后通过不断循环第二步和第三步，逐个解决这些子问题，最后得到一个最终的答案。

丹尼尔：LLM 就是"大脑"，Agent 就是"身体"，Tool 就是"手脚"，这下完全理解了。那 LLM 的回答为何可以如此准确呢？

蛋先生：这可得感谢 Prompt 工程的功劳！

比如在 Prompt 中，会告诉 LLM 可以使用的小工具：

sql 复制代码

You have access to the following tools:

get_current_time: get_current_time() -> str - Get the current time.

Valid "action" values: "Final Answer" or get_current_time

还有比如在 Prompt 中，会告诉 LLM 用 JSON 格式返回：

php 复制代码

Provide only ONE action per $JSON_BLOB, as shown:

{
  "action": $TOOL_NAME,
  "action_input": $INPUT
}

具体可以参考这个 Prompt 模板【hwchase17/structured-chat-agent】

丹尼尔：666

Agent 类型这么多，如何抉择？

丹尼尔：我瞅了瞅官网上的 Agent 类型，简直让我眼花缭乱。我这个选择困难症患者该如何选呢？

蛋先生：首先，我们来梳理一下 LLM 和 Chat Model 这两个 model type 的区别。在 LangChain 中，LLM 和 Chat Model 的本质区别在于输入输出。LLM 的输入输出都是字符串，而 Chat Model 的输入输出都是 Message 实例。

丹尼尔：然后呢？

蛋先生：如果你对 OpenAI 的 API 比较熟悉，可以把 LLM 当做 Completions，把 Chat Model 当做 Chat Completions。

Completions
Chat Completions

由于 Completions 已经被标记为 Legacy（不建议使用），所以在实际应用中，建议使用 Chat Model 类型的 Agent 就可以了。

丹尼尔：哦，抛开 LLM 类型，还有 OpenAI Tools / OpenAI Functions / Structured Chat / JSON Chat。那这些又该如何选择呢？

蛋先生：OpenAI functions 参数已经过时了，建议使用 tools 参数。So，可以把 OpenAI Functions 类型排除掉

丹尼尔：好的，还剩下 OpenAI Tools / Structured Chat / JSON Chat。

蛋先生：如果你使用的是 OpenAI 的语言模型（实际上只要 API 支持 tools 参数的大语言模型都可以用此类型），那就选择 OpenAI Tools 类型的；否则就选用 Structured Chat。

Structured Chat 与 JSON Chat 的区别

丹尼尔：那 JSON Chat 类型呢？为啥直接无视它了？

蛋先生：Structured Chat 和 JSON Chat 的区别在于对 tool 入参类型的支持上。

JSON Chat 只支持一个参数的 tool，比如以下工具：

python 复制代码

@tool
def search(query: str) -> str:
    """Look up things online."""
    return "LangChain"

如果是多参数的 tool，那你就得升级成 Structured Chat，比如如下工具：

python 复制代码

@tool
def multiply(a: int, b: int) -> int:
    """Multiply two numbers."""
    return a * b

丹尼尔：哦，看起来 Structured Chat 已经包含了 JSON Chat 的功能了呀。

蛋先生：没错，但如果你用的大语言模型比较糟糕，可能就需要用 JSON Chat。因为对于大语言模型来说，调用只有一个参数的 tool 会更简单一些。不过现在的大语言模型只会变得越来越厉害，所以 Structured Chat 就可以了。

丹尼尔：好咧，我已经迫不及待要去试试了！

蛋先生：那，后会有期

丹尼尔：谢谢蛋兄，后会有期