构建企业专属知识库正逐渐成为高效信息管理的核心需求。然而,大多数企业面临一个普遍问题:信息载体高度碎片化------手写笔记、拍摄图像、会议PPT 、PDF等异构数据源散落各处。这些资料不仅难以系统化整理,更无法被有效复用,长期积累后甚至无法追溯存留内容。
与此同时,企业对大模型能力的期望已不仅限于通用问答,而是希望其能基于内部资料进行精准、可溯源的回答。诸如NotebookLM这类产品之所以被视为"AI 私人助理",核心在于其能够严格基于用户上传的文档进行回答,并支持答案溯源。
虽然很多企业用户不熟悉RAG或微调等技术细节,但这并不妨碍我们实现基于知识库的智能问答。关键在于两个核心环节:
-
将异构原始资料转化为大模型可理解的干净、结构化数据,这是所有后续处理的基础前提;
-
构建能够调用结构化知识库的智能体,实现基于上下文的精准回答。

整体设计
本方案采用两级处理架构:
-
首先使用TextIn文档解析平台,将多模态资料统一转化为标准Markdown格式,解决大模型对图形、表格等非结构化数据理解不足的问题;
-
然后通过Coze平台构建向量化知识库,并部署智能体,实现基于知识库的精准问答。
实现步骤
01 数据预处理与结构化
在TextIn官网,根据原始资料类型,选择对应的处理工具:
-
手写笔记:使用「通用文档解析」,提取手写文字及版式信息;
-
拍摄图像:对于存在阴影、透视变形或水印的图像,优先使用「图像智能类」进行矫正,再送入文档解析流程;
-
会议PPT/PDF :直接使用「通用文档解析」,保留标题层级、表格及列表结构。
使用链接:
TextIn 文档解析 · 免费体验
https://cc.co/16YSZz
2. 处理完成后,导出为Markdown格式,文本、表格及基础版式信息被完整保留。
常见问题(FAQ)
Q 1:PPT文件可以直接解析吗,还是必须转为PDF?
A1:常见的Office格式(Word、Excel、PPT)均支持直接解析,无需预先转换为PDF 。
Q2:系统如何区分并还原文档的目录层级?
A2:我们采用双策略重构目录:其一,在检测到显式目录页时,直接解析并还原其层级链接;其二,对于无目录页的文档,则通过分析标题的版式与语义特征,智能推断并生成目录结构。
Q3:跨页表格或段落在识别时能否保持连续性?
A3:可以。我们的算法能识别并合并跨页的表格与段落,会按照人类阅读顺序,将其还原为语义完整的单个元素。
Q4:是否支持报纸、古籍或CAD图纸等特殊版式的解析?
A4:
● **报纸/期刊:**针对其复杂的多分块、竖排标题等非标准版式,专项优化正在进行中。
● **古籍:**可以识别古籍中的内容、文字,分析版面并进行结构化输出,对于复杂板式的古籍保护、检索,乃至信息挖掘和知识发现都能有一定贡献。
●**CAD图纸:**目前尚无法解析其中的图形与标注元素。仅支持提取图号、编制单位等纯文本信息。对图纸的全面理解需要更强的多模态能力,暂未支持。
02 Coze知识库构建
1. 创建知识库
进入Coze平台,在空间内,依次选择 资源库 -> 添加资源 -> 知识库 -> 创建扣子知识库,即可初始化一个空的知识库。
2. 上传结构化文档
将此前在TextIn中处理并导出的.md文件直接上传。这些文档已具备清晰的标题、列表和表格结构,能显著提升模型在向量化与检索阶段的信息提取准确率。

3. 规划知识库
避免混杂:不建议一次性上传大量不同主题的文件。建议按主题分库建设。
示例:你可以为"竞品分析"建立一个独立知识库,为"项目规范"建立另一个。这样,当要求AI基于特定知识库回答时,其输出将更为精准和专注。
03 创建并配置智能体
现在,我们将在Coze中创建一个智能体,这里我以"竞品分析"为例,并让它学会调用你刚建立的知识库。
1. 创建智能体
在Coze平台中,点击「创建」选择「智能体」。
为其命名,例如"竞品分析专家",并填写清晰的描述,如"一个专门基于内部竞品文档进行市场分析和产品对比的AI助手"。
2. 绑定知识库
● 在智能体的配置面板中,找到「知识」。
● 点击「添加知识库」,并从列表中选择你在第二步中创建的、专门存放竞品资料的知识库。

3. 设计人设与回复逻辑,编写清晰的系统指令来塑造其专业行为。
例如:你是一名资深的产品市场分析师。你的核心任务是严格依据用户上传的竞品文档来回答问题。对于任何涉及产品特性、市场数据或竞争对比的问题,你必须优先并从知识库中寻找证据来组织回答。如果知识库中没有相关信息,请直接说明'根据当前资料,未找到相关依据'。
*以上提示词仅为示例,你可以利用大模型优化和定制所需提示词。另外,Coze平台提供了丰富的智能体搭建能力,本教程聚焦于知识库,其他更多功能可凭兴趣自行探索。

Coze插件
此外,TextIn 开发的「PDF转Markdown」插件也已上架至Coze平台。

在扣子搜索「pdf转markdown」,或「pdf2markdown」,即可找到插件,在你的专属智能体中便捷使用文档解析功能。
如果想测试解析插件在你需要的场景下表现如何,可以直接对话bot,试用pdf转markdown效果。