利用Python算法,解析PDF文件并生成文档分块Chunks,追加到RagFlow知识库

一、知识库的分块选型

1、法律条文需要精准回答:使用python等算法自己分析,形成问答对

2、小说章节需要大片章节:使用知识库本身的分块逻辑

二、python算法的编写

现在属于人工智能的时代,我使用Trae直接把需求给它,它直接给我写出了python算法,看来程序员要么转业、要么失业。

提示词是:

bash 复制代码
使用python做一个算法软件,主要功能有:
1、从PDF中读取文本信息、解析表格信息、使用ORC识别读取图片信息等功能。
2、根据页码、段落、表格、图片或者其他自定义的规则形成分块列表,并在分块中追加你认为必要的召回信息。
3、分析分块内容,并在分块中形成关键字、问题以及标签。
4、调用RagFlow的接口创建文档,接口:/api/v1/datasets/{dataset_id}/documents。
5、基于上面创建的文档,调用RagFlow的接口创建分块,接口:/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks。
6、所有需要配置的内容,追加到一个环境配置文件中。

三、结果展示

形成的python算法工程(当然过程中,它反复好几次才最终成功)

上传了PDF文档,并形成了304块分块

分块详细

至此,结束!!!

相关推荐
如竟没有火炬9 分钟前
最大矩阵——单调栈
数据结构·python·线性代数·算法·leetcode·矩阵
阳区欠19 分钟前
【LangChain】LLM基础介绍
开发语言·python·langchain
Cosolar20 分钟前
保姆级 CrewAI 教程:从零构建多智能体协作系统
人工智能·python·架构
Jinkxs30 分钟前
Java 跨域14-Java 与区块链(Hyperledger)集成
java·开发语言·区块链
GDAL35 分钟前
使用 uv 管理 Python 版本
python·uv·版本
真实的菜36 分钟前
Redis 从入门到精通(十二):典型业务场景实战 —— 排行榜、限流器、秒杀系统、Session 共享
数据库·redis·python
cup111 小时前
[开源] Meta Assistant / 告别命令行,我为一堆 Python 脚本做了一个 Windows 任务栏的“家”
windows·python·工具·nuitka·脚本运行
晨曦中的暮雨1 小时前
Golang速通(Javaer版)
java·开发语言·后端·golang
小小编程路2 小时前
Python 还有容器类型互转、进制转换、字符编码转换
开发语言·windows·python
qeen872 小时前
【C++】类与对象之类的默认成员函数(二)
android·c语言·开发语言·c++·笔记·学习