利用Python算法,解析PDF文件并生成文档分块Chunks,追加到RagFlow知识库

一、知识库的分块选型

1、法律条文需要精准回答:使用python等算法自己分析,形成问答对

2、小说章节需要大片章节:使用知识库本身的分块逻辑

二、python算法的编写

现在属于人工智能的时代,我使用Trae直接把需求给它,它直接给我写出了python算法,看来程序员要么转业、要么失业。

提示词是:

bash 复制代码
使用python做一个算法软件,主要功能有:
1、从PDF中读取文本信息、解析表格信息、使用ORC识别读取图片信息等功能。
2、根据页码、段落、表格、图片或者其他自定义的规则形成分块列表,并在分块中追加你认为必要的召回信息。
3、分析分块内容,并在分块中形成关键字、问题以及标签。
4、调用RagFlow的接口创建文档,接口:/api/v1/datasets/{dataset_id}/documents。
5、基于上面创建的文档,调用RagFlow的接口创建分块,接口:/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks。
6、所有需要配置的内容,追加到一个环境配置文件中。

三、结果展示

形成的python算法工程(当然过程中,它反复好几次才最终成功)

上传了PDF文档,并形成了304块分块

分块详细

至此,结束!!!

相关推荐
Csvn14 小时前
🌟 LangChain 30 天保姆级教程 · Day 13|OutputParser 进阶!让 AI 输出自动转为结构化对象,并支持自动重试!
python·langchain
Wenweno0o14 小时前
0基础Go语言Eino框架智能体实战-chatModel
开发语言·后端·golang
其实秋天的枫14 小时前
【2026年最新】驾考科目一考试题库2309道电子版pdf
经验分享·pdf
chenjingming66614 小时前
jmeter线程组设置以及串行和并行设置
java·开发语言·jmeter
cch891814 小时前
Python主流框架全解析
开发语言·python
不爱吃炸鸡柳15 小时前
C++ STL list 超详细解析:从接口使用到模拟实现
开发语言·c++·list
十五年专注C++开发15 小时前
RTTR: 一款MIT 协议开源的 C++ 运行时反射库
开发语言·c++·反射
Momentary_SixthSense15 小时前
设计模式之工厂模式
java·开发语言·设计模式
sg_knight15 小时前
设计模式实战:状态模式(State)
python·ui·设计模式·状态模式·state
好运的阿财15 小时前
process 工具与子agent管理机制详解
网络·人工智能·python·程序人生·ai编程