干货分享,感谢您的阅读!
在 AI 工具越来越多的今天,人人都在喊"我也要做一个智能体!"。
于是你打开 Coze 平台,兴致勃勃地点了"创建智能体",却发现面前的选项比点外卖还要多,模型、插件、工作流、提示词......仿佛一瞬间被传送到了一档真人秀节目《AI 创造营》。
别慌,其实做智能体并没有你想象得那么神秘。只要你会拖拽节点、会打字、知道自己想让它干啥,它就能乖乖为你所用。可以说,你负责"拍脑袋",它负责"做事情"。
接下来就让我们一步步搭建一个真正能干活、能读文档、还能自动生成插图的"文档整理智能体"。
放心,我会把过程讲得像拆乐高一样简单,不会让你一边看教程一边想"这玩意儿真的是给人类用的吗?"
一、基本背景说明
在企业日常内容处理工作中,文档整理、网页解析、文件摘要提取和插图生成是最耗时的任务之一。尤其是在培训内容制作、运营文章编排、行业报告整理等场景下,传统人工处理方式不仅效率低,而且容易出现遗漏或风格不统一的问题。
同时,随着 AI 技术成熟,基于大模型的"智能体(Agent)" 可以承担传统工具难以胜任的复杂流程,例如自动识别内容类型、调用插件读取外部资源、触发图像生成模型输出插图等。这些能力结合在一起,构成了一个真正的 AI 办公助手。
因此,本教程将带你一步步搭建一个实用的"文档整理与插图生成智能体",并通过 Coze 平台实现全文解析、内容重写、多模态插图生成与智能工作流编排,让你的内容生产流程从繁琐走向自动化。
二、设计方案
(一)需求分析
为了让智能体真正能在实际业务场景中发挥作用,我们将能力拆解为三大类需求:
1. 内容输入需求
智能体需要支持多种形式的输入,包括:
-
原文文本(用户直接粘贴)
-
文章链接(需要插件抓取网页内容)
-
上传文档(PDF / Word / Excel / TXT 等)
因此,插件能力是刚需,大模型必须支持 FunctionCall 调用,并能处理较长文本。
2. 文档解析与重写需求
在内容处理过程中,智能体需要实现:
-
阅读文档内容或网页内容
-
生成摘要、提炼结构化信息
-
根据文章风格进行仿写、改写或重写
-
识别文章中的主题,用于后续插图生成
为了保证稳定性,需要一个兼具长文能力与稳定推理的模型。
3. 插图生成需求
为了让输出内容更加完整、美观,需要智能体能够根据主题自动生成插图,并支持:
-
不同风格(如通用风格、动漫风格)
-
图像生成模型的智能切换(通过意图识别)
-
多节点工作流协作(图像生成 + 变量聚合)
因此必须创建专门的"图像生成"工作流,并让主模型能够在对话中自动调用。
4. 发布需求
智能体要支持:
-
独立使用
-
发布到扣子商店供其他人使用
-
在对话体验中具备良好的开场白、人设与交互逻辑
(二)设计工作流程
为了让智能体能够既"读得懂文章",又能"仿得像文章",甚至还能"自动配图",我们需要设计一套完整且清晰的内部工作流程。下图展示了智能体的整体处理链路:从用户输入开始,到解析内容、生成文章,再到自动调用插图工作流,最终输出一份可读性强、风格一致的完整新文章。

流程结构如下:
1. 判断输入类型:是否为网页链接
用户可能输入两种内容:
-
直接粘贴文章文本
-
提供网页 URL
因此智能体的第一步是判断输入是否为网页链接。如果是 URL,则后续流程将自动走向"插件读取网页内容";如果不是,则直接进入"文章分析阶段"。
这一判断逻辑确保智能体能"识别输入形态",为后续处理选对路径。
2. 若为网页:调用插件读取内容
当输入为网页时,智能体会自动调用 LinkReaderPlugin:
-
读取网页内容(包括正文、标题、结构)
-
对 PDF、DOCX、TXT 等多种格式也可解析
-
统一返回可供模型继续分析的纯文本内容
这样,任何格式的资料都会先转成文本,为后面的文章解析提供稳定输入。
3. 文本解析:抽取文章结构与关键信息
无论内容来自网页还是用户直接粘贴,这一步都会进行:
-
分析文章主题与写作风格
-
抽取核心逻辑:背景、要点、结论
-
识别原文的表达节奏、篇章结构
这一步为后续"仿写"奠定基础,让生成的文章能"像原文但不一样"。
4. 生成新文章:重写、仿写或重构内容
基于文章解析结果,大模型会执行仿写逻辑:
-
保留关键观点,但重新组织语言
-
用适合目标读者的风格重新呈现
-
可以选择更口语、专业、或文案化的表达方式
-
确保最终内容原创且风格一致
这部分依赖于 大模型 + Prompt 策略 的联动,是智能体的核心能力。
5. 自动生成插图:调用图像生成工作流
生成完新文章后,智能体会将文章的主要内容或段落主题传入图像工作流(text2img):
-
自动分析主题
-
生成合适的插图
-
支持通用模型或动漫模型(如启用了意图识别分支)
插图工作流内部包含:
-
正向提示词(想画什么)
-
负向提示词(避免画什么)
-
自动选择模型(如检测到"儿童内容"则使用动漫风)
最终返回图片 URL 或图片文件用于展示。
6. 输出最终内容给用户
智能体最终输出给用户的内容是:
-
一篇结构清晰、表达自然、风格统一的全新文章
-
搭配生成的插图或视觉素材
-
并以最初用户的输入需求(总结、重构、仿写等)为准进行组织
整个流程由 大模型 + Prompt + 插件 + 工作流 联合作业,自动完成信息读取、内容加工与可视化生成,实现端到端的智能文章生产体验。
(三)技术选型
技术选型影响整个智能体的体验能力,以下为合理方案:
1. 大模型
选择"大模型"时主要考虑:
-
支持 FunctionCall(必需)
-
适合处理长文本(文档场景)
-
响应速度稳定(影响交互体验)
-
具备良好生成质量(影响仿写效果)
因此推荐选择:**豆包·1.5·Pro·32k。**它兼具稳定性与文案生成能力,非常适合文档处理类智能体。
2. 插件
最关键插件:
| 插件 | 能力 | 作用 |
|---|---|---|
| LinkReaderPlugin | 读取网页/文章/文档内容 | 支撑"解析链接与文件"能力 |
插件的能力直接决定智能体能否"看懂"用户给的文章。
3. 图像生成工作流选型
在图像生成层面,我们采用:
-
Coze 内置图像生成模型(通用模型)
-
动漫风格模型(适合儿童教育、科普等场景)
并通过 意图识别 实现"自动选择哪种图像模型"。
工作流采用:
-
图像生成节点
-
意图识别节点
-
变量聚合节点
从而构建一个可靠的图像生成管线。
三、搭建智能体的完整流程
(一)创建智能体
1. 登录扣子平台
首先,打开 Coze 平台首页:https://www.coze.cn/home
1.1 在首页直接点击 "创建" 按钮,如下图所示:

1.2 点击后,会出现不同类型的选项。我们选择 "创建智能体" 进入下一步。

2. 编写基本信息
选择 "创建智能体" 后,会弹出信息填写窗口(标准创建):

这里我们以创建一个 文档整理智能体 为例:
-
智能体名称:仿写文案
-
智能体功能介绍:根据用户输入的文章或链接,仿写一篇新文章。
-
工作空间 :选择 个人空间
-
图标:点击右下角按钮,由 AI 自动生成(输入名称和介绍后,点击可自动生成头像)
信息填写完成后,点击 确认,即可进入智能体编辑页面,开始进行个性化设置和功能开发。
(二)配置大模型与插件
1. 选择大模型
在进入智能体编辑页面后,首先要设置 大模型。
1.1 根据具体要求选择合适项目的大模型
在页面顶部的大模型下拉菜单中,你会看到许多可供选择的模型,每个模型的能力说明都在对应的说明中。
根据我们的需求(确保所选大模型支持FunctionCall工具调用的功能),这里选择 "豆包·1.5·Pro·32k",这个模型适合处理长文档,性能稳定且响应快速。如下图所示:

1.2 生成多样性

决定模型生成内容的风格和随机性:
-
模式选择:
-
精确模式:生成结果更准确、保守,适合专业文本处理。
-
平衡模式:兼顾准确性和创意,日常使用推荐。
-
创意模式:生成更有创意、自由的内容,适合文案或灵感输出。
-
自定义:可以手动调节生成参数。
-
-
生成随机性 :控制回答的多样性。值越高,生成的内容越随机和富有变化;值越低,结果更稳定和一致。示例图中设置为 0.8,偏向灵活且自然的输出。
1.3 输入及输出设置

携带上下文轮数 :模型在生成回答时会参考前几轮对话,值越大,模型记忆越多。示例中设置为 3,保证对话连贯。
- 最大回复长度 :控制单次输出内容的字数上限,值越大,能生成的文本越长。示例中为 4096,适合长文档整理。
1.4 上下文缓存

- 前缓缓存 :开启后,模型会记住之前的对话内容,以便在后续交互中保持连续性。使用前缀缓存(见指引文档)可以提高模型应用的效率并降低成本。
1.5 模型默认指令

-
当前时间:开启后,模型可以在回答中使用当前时间信息。
-
SP防泄漏指令:用于防止敏感内容泄漏,确保生成内容安全可靠。
⚡ 提示:这些参数并非固定,可以根据智能体功能和使用场景进行调整。例如文档整理类智能体,可以保持 平衡模式、中等生成随机性、较长最大回复长度,让内容既准确又详细。
2.添加插件
智能体的功能不仅依赖大模型,还可以通过插件扩展,让它更智能、更实用。
插件能够让智能体调用外部 API,例如搜索信息、浏览网页、生成图片等,扩展智能体的能力和使用场景。
步骤如下:
2.1 在智能体编辑页面,点击 "添加插件" 按钮。

2.2 进入插件管理页面后,在搜索框中输入 "链接读取",系统会显示相关插件列表。

2.3 找到 LinkReaderPlugin 工具,点击旁边的 "添加" 按钮,将它加入智能体。

这个插件可以帮你的智能体读取并理解各种文档和网页内容,包括 网页、PDF、DOC、DOCX、XLSX、CSV、TXT 等格式的标题和内容,让你的文档整理助手真正能动手处理各种资料。
(三)创建工作流:生成图像的工作流
1. 新建工作流
在对应的"技能模块"中,单击"添加工作流"按钮,具体如下图:

在弹出的选择框中,点击"创建工作流"按钮会出现下拉框,在出现的下拉框中选择"创建工作流",具体如下图:

点击"创建工作流"后,对工作流基本信息进行填写,具体如下:

针对我们本次的任务,我们填写主要内容如下:
- 工作流名称:text2img
- 工作流描述:根据输入的文本信息内容,生成对应的插图
注意如下(当前官方的要求):
- 工作流名称工作流名称只允许字母、数字和下划线,并以字母开头
- 工作流描述:请输入描述,让大模型理解什么情况下应该调用此工作流,字数在600字以内
填写完以上信息后会进行页面跳转,具体页面如下:

支持两种画布交互模式,为了后续绘制工作流,这里可以简单感受一下:
鼠标友好模式:鼠标左键按住移动画布,滚轮缩放
触控板友好模式:双指同向滑动移动画布,双指张开捏合缩放
2. 添加"图像生成"节点
单击"开始"节点后面的"+"按钮,其会出现很多供选择的新的功能点内容,具体如下(感兴趣的话可以下拉看看目前已经支撑的功能点):

在对应的搜索框中查询"图像生成"后,具体展示如下图,点击对应的"图像生成"节点:

点击"图像生成"节点后会出现如下提示,选择对应的图像生成并添加即可(注意下方对应价格要求):

添加"添加"后自动图像生成节点就已经进行创建了,具体如下:

然后直接添加"图像生成"节点,对应会出现如下图的相关节点设置内容,我们现在直接点击对应的"输入"模块的"+"按钮:

点击"+"后,在对应的输入变量设置中,输入变量名为"input",然后在变量值中的下拉框中选择"开始"节点:

然后在开始节点点击后直接选择出现的输入变量"input"即可。

然后我们需要在"提示词"模块进行设置对应的正向和负向提示词,具体内容可如下:

最后,我们讲"图像生成"节点与"结束"节点进行相连,具体如下:

3. 设置"结束"节点
我们可以直接点击对应的"结束"节点,对应出现如下图,我们需要设置其输出变量内容:

在"结束"节点的输出变量中,选择"图像生成"节点的"data"参数:

4. 试运行
回到工作流配置主页面,可以看到如下的"试运行",具体如下:

点击后,直接在出现的如下页面中在"input"参数下输入任意的一个主题(比如"大熊猫大战老秃鹰"),然后点击下面的"试运行":

点击后整体流程图会进入动态流转显示如下:

等待几秒中以后,对应的结果如下图所示:

在以上试运行成功后,我们就可以单击右上角的"发布"按钮,然后填写对应的版本号和对应的版本描述,具体如下:

然后点击"发布"按钮后,我们可以看到如下图,我们可以点"确认"进行添加,整个工作流创建就完成了。

5. 扩展意图识别
在上面的工作流中,不管什么主题的内容,在生成插图时使用的都是"通用"模型,虽然这样也能生成匹配主题的插图,但很多时候我们可能希望根据不同的主题选择不同的模型来生成插图,比如针对儿童科普类文章,我们希望选择"动漫"模型来符合特定人群的需求。
基于上面的诉求,我们可以增加"意图识别"节点。
现在,在图像生成工作流的"开始"节点中单击"+"按钮,在弹出的节点中搜索"意图识别",然后选择下图中的意图识别即可:

点击"意图识别"节点进行设置,在参数"query"的变量值中选择"开始"节点的"input"参数:

然后在"意图匹配"模块中添加一条"是否为儿童内容"选项:

接着,我们在原始的"图像生成"节点上点击"..."按钮,在弹出的选择框中选择单击"创建副本":

单击如上"创建副本"后,当前工作流中会多出一个"图像生成_1"节点:

此时其对应的模型、正向负向提示词等都和"图像生成"节点一致,我们可以通过其右上方的"..."按钮对应进行命名更改为"动漫图像生成":

然后我们先点击"动漫图像生成"节点,然后在其对应配置中讲模型改成"动漫":

最后,我们修改原有工作流的节点流程通向,讲"开始"节点与"意图识别"节点相连,然后将"意图识别"节点中的"是否为儿童内容"选项与"动漫图像生成"节点相连,"其他"与"图像生成"节点相连:

6. 变量聚合:聚合多个分支的结果
"意图识别"节点实际上是条件分支节点:在实际运行过程中,"意图识别"节点后面的"图像生成"节点和"动漫图像生成" 节点,只会有一个节点被执行。
如果直接将"图像生成"节点和"动漫图像生成" 节点连接到"结束"节点,则"结束"节点只能选择其中一 个节点的结果输出,无论是选择哪个节点都是不对的。
"变量聚合"节点可以聚合多个分支的结果,让"结束"节点正常输出结果。 现在我们在工作流中单击"添加节点"按钮:

然后在"添加节点"中搜索"变量聚合"后选择"变量聚合"节点:

接着我们把"图像生成"节点和"动漫图像生成" 节点连接到"变量聚合"节点:

在"变量聚合" 节点的 "Group1"参数中,选择"图像生成"节点和"动漫图像生成" 节点的输出变量 "data":

将"变量聚合" 节点连接到"结束"节点:

最后在"结束"节点的输出变量中选择"变量聚合" 节点的输出变量 "Group1":

(四)填写"人设与回复逻辑"
根据智能体的要求,直接在"人设与回复逻辑"中填写自己想要实现的相关内容,具体如下:

按照我们当前的智能体,我们书写如下:

注意图中蓝色标注部分,在需要大模型调用插件地方输入花括号"{",系统会识别为需要提取调用的插件列表,会讲之前选择过的插件罗列,具体如下:

单击选择插件按钮,就可以将其添加到提示词中了。
(五)设置开场白
设置开场白的目的是让用户在第一时间明确智能体的身份与专业能力,了解可以提供的服务和输出内容,同时引导用户正确操作,建立信任感和亲切感,从而促使高效互动和顺利使用。
具体可以在对话体验中设置对应的开场白,根据我们的目标具体设置如下:

(六)预览与调试
在 Coze 中,智能体设置提供了 预览 和 调试 功能,用于帮助用户快速验证和优化智能体的行为:
-
预览:可以即时模拟用户与智能体的对话,查看智能体在实际交互中的表现,判断回答是否符合预期。
-
调试:提供更详细的交互信息,包括输入、输出和上下文状态,方便发现逻辑问题或优化响应策略。
简单来说,预览让你"看到结果",调试让你"分析原因",两者结合可以快速测试和完善智能体的表现。
我们简单体验预览如下(针对文章《工程化路径:当我们信任并拥抱 AI,超级潜力才真正被点燃》进行总结),我们针对其图片展示如下:

针对调试可以直接点击下图,具体调试基本信息详情可直观看到所有流程。

在调试详情页面,可以看到对话耗时、消耗Token数量、调用树、火焰图、资源点等,同时也包括节点详情信息以及输入输出等信息。
(七)发布到扣子商店
完成智能体开发后,可以将其发布到 扣子商店,让其他扣子用户也能使用"文档管理"智能体,实现文章内容的快速解析与整理。发布步骤如下:
1. 进入发布页面
在智能体编辑页面,点击右上角的 "发布" 按钮,即可进入发布设置页面。

2. 选择发布目标
在发布页面中,勾选 "扣子商店" 选项,表示智能体将对外开放。确认设置后,再次点击右上角的 "发布" 按钮,即可提交智能体。
- 发布前可再次检查智能体描述、标签、图标等信息,确保用户能够快速理解智能体功能。

3. 查看发布结果
发布成功后,页面会显示提示信息,此时可以点击 "立即对话" 按钮,直接进入智能体对话界面进行体验。

4. 智能体对话页面功能
用户进入智能体对话页面后,可以通过以下方式使用智能体:
-
输入文章链接:智能体自动抓取网页内容并解析。
-
复制粘贴文章内容:直接让智能体对文本进行总结、提炼和结构化处理。
-
上传文件:支持文档上传,由智能体解析整理核心内容和数据。
通过发布到扣子商店,智能体不仅可以被自己使用,还能为更多用户提供高效的文档管理和文章解析服务,真正实现工具的共享与价值扩展。
四、总结
通过本教程,我们完成了一个从 0 到 1 的完整智能体搭建过程。从需求分析、模型选择、插件添加,到工作流绘制、插图生成、意图识别、变量聚合,再到人设与开场白的细致调整,每一步都清晰可见且可独立复用。
最终构建出的智能体具备三大核心能力:
-
能读:读取网页、文档、文本等各种资料
-
能写:总结、提炼、结构化、仿写文章
-
能画:根据文章主题自动生成插图,并可智能切换模型风格
当你把这个智能体发布到扣子商店,它不仅是一个工具,更是你专属的内容助手,可以为自己服务,也能帮助更多用户提高效率。
到这里,一个真正"专业、可用、可复用"的文档整理智能体就彻底搭建完成了。
如果你愿意,下一步我们还可以继续升级它,例如:
-
加入"文章风格识别"
-
加入"标签自动生成"
-
加入"文章多版本仿写"
-
增加"多图生成与排版"
只要你愿意折腾,智能体就永远有成长的空间。