拒绝单句 Prompt 摸盲盒：从 smolagents 看复杂多智能体 (Multi-Agent) 架构落地实践

[拒绝单句 Prompt 摸盲盒：从 smolagents 看复杂多智能体 (Multi-Agent) 架构落地实践](#拒绝单句 Prompt 摸盲盒：从 smolagents 看复杂多智能体 (Multi-Agent) 架构落地实践)

[1. 破局之道：smolagents 与"代码即行动" (Action as Code)](#1. 破局之道：smolagents 与“代码即行动” (Action as Code))

[2. 真实战场：为什么专利交底书不能"一键生成"？](#2. 真实战场：为什么专利交底书不能“一键生成”？)

[3. 架构演进：构建"流水线式"专利撰写多智能体网络](#3. 架构演进：构建“流水线式”专利撰写多智能体网络)

[节点一：访谈者智能体 (Interviewer Agent) ------ "挤牙膏"式信息补全](#节点一：访谈者智能体 (Interviewer Agent) —— “挤牙膏”式信息补全)

[节点二：研究员智能体 (Researcher Agent) ------ 消除背景幻觉](#节点二：研究员智能体 (Researcher Agent) —— 消除背景幻觉)

[节点三：起草者智能体 (Drafter Agent) ------ 分块定向生成](#节点三：起草者智能体 (Drafter Agent) —— 分块定向生成)

[节点四：审查员智能体 (Critic Agent) ------ 质量守门员](#节点四：审查员智能体 (Critic Agent) —— 质量守门员)

[4. 总结与展望：从"文生文"到"智能决策网络"](#4. 总结与展望：从“文生文”到“智能决策网络”)

拒绝单句 Prompt 摸盲盒：从 smolagents 看复杂多智能体 (Multi-Agent) 架构落地实践

随着大模型能力的跃升，开发者们正经历着从"调用 LLM API"到"构建 AI Agent（智能体）"的范式转变。然而，当我们试图用大模型去解决真正复杂的垂直行业问题时（例如：撰写一份逻辑严密、符合专业规范的"专利技术交底书"），传统的"单次 Prompt 生成"往往会陷入严重的幻觉，产出沦为毫无落地价值的"废话文学"。

本文将从轻量级框架 smolagents 的核心理念切入，带大家探讨如何通过多智能体协同（Multi-Agent）与多步工作流，真正驯服大模型，完成高壁垒的复杂业务。

1. 破局之道：smolagents 与"代码即行动" (Action as Code)

在探讨复杂的架构前，我们不得不提 Hugging Face 近期推出的极简 Agent 框架 ------ smolagents。

传统的主流 Agent 框架（如早期的 LangChain）在让大模型调用工具时，通常是让模型输出一段结构化的 JSON，系统解析后再去执行。而 smolagents 带来了一个极其惊艳的理念：Code Agent（代码智能体）。

它摒弃了繁琐的 JSON 解析，直接让大模型生成并执行一段 Python 代码来完成任务流转。

为什么"写代码"比"吐 JSON"更好？

因为现代大模型（如 GPT-4、Claude 3.5、Gemini）本身就是极其优秀的程序员。通过编写代码，大模型原生具备了处理复杂循环 (for/while)、条件分支 (if/else) 和嵌套逻辑的能力。这使得 Agent 的流转速度更快，逻辑更严密，也为我们后续构建复杂的业务状态机提供了灵感。

2. 真实战场：为什么专利交底书不能"一键生成"？

理解了 Agent 的执行逻辑，我们来看一个高价值的真实业务场景：自动生成专利技术交底书。

一份合格的交底书绝不是科普散文，它有着严苛的内在逻辑闭环：现有技术缺陷（问题） $\\rightarrow$ 核心创新点（方案） $\\rightarrow$ 技术提升（效果）。

如果采用传统的单 Agent 模式，直接把研发人员的几句口述丢给大模型并要求"写一篇专利"，必定会遭遇以下翻车现场：

输入信息缺失： 研发通常只提怎么做的，不提背景和竞品，大模型只能靠"脑补"瞎编背景。
格式与逻辑脱节： 无法严格按照专利局要求的模块（背景技术、发明内容、具体实施方式）进行隔离和递进式推演。
专业术语失控： 极易出现口语化表达或绝对化用词（如"彻底解决"、"完全避免"），这是专利代理人的大忌。

要解决这个问题，我们必须走向 Multi-Agent（多智能体协同） 架构。

3. 架构演进：构建"流水线式"专利撰写多智能体网络

我们参考了业界先进的图结构工作流（如 LangGraph）理念，将专利生成的整个生命周期，拆解为四个能力互补、各司其职的 Agent 组成的"车间流水线"：

节点一：访谈者智能体 (Interviewer Agent) ------ "挤牙膏"式信息补全

核心职责： 扮演经验丰富的专利代理人，审视用户的原始输入。
流转逻辑： 通过意图识别，检查输入是否完整包含"背景、问题、方案、效果"四要素。如果发现缺失（比如只写了代码逻辑没写性能提升），它会主动发起多轮对话追问研发人员，直到榨干所有必要细节。

节点二：研究员智能体 (Researcher Agent) ------ 消除背景幻觉

核心职责： 负责"现有技术"的背景调查。
工具挂载 (Tool Calling)： 赋予该 Agent 访问专利数据库 API 或企业内部知识库（RAG）的权限。它根据 Interviewer 收集的创新点，自动生成检索词，抓取真实存在的现有技术缺陷，为交底书提供坚实的"痛点"背书。

节点三：起草者智能体 (Drafter Agent) ------ 分块定向生成

核心职责： 将收集到的所有素材，按照专利法要求的结构进行组装。
流转逻辑（关键）： 绝对不一次性全文输出。而是采用链式生成 (Chain Generation)：
1. 依据 Researcher 的数据，生成《背景技术》。
2. 将《背景技术》作为 Context，配合核心方案，生成《发明内容》。
3. 最后扩写《具体实施方式》。
  
  这样做可以极其有效地控制上下文窗口，防止大模型在长文本生成中"注意力涣散"。

节点四：审查员智能体 (Critic Agent) ------ 质量守门员

核心职责： 对抗大模型的随意性，确保合规。
流转逻辑： 引入 ReAct（推理与行动）机制。将 Drafter 生成的初稿丢给 Critic 进行审查。利用强 Prompt 拦截违禁词、消除绝对化表达。如果发现"技术方案未能解决背景技术提出的问题"（逻辑断裂），则直接打回给 Drafter 强制重写。

4. 总结与展望：从"文生文"到"智能决策网络"

通过 smolagents 这样的前沿框架，我们学到了化繁为简的 Action as Code 哲学；而在真实的专利撰写场景中，我们又必须化简为繁，用多智能体的图结构来约束大模型的"野性"。

构建 AI 应用已经不再是单纯的"调参"和"写 Prompt"，而是变成了系统工程中的流程编排与状态管理。当我们将大模型从一个被动的"文本生成器"，重塑为系统中相互校验的"智能决策中枢"时，AI 才能真正深入农业科研、专利产出等高壁垒的产业腹地。