利用Python算法,解析PDF文件并生成文档分块Chunks,追加到RagFlow知识库

一、知识库的分块选型

1、法律条文需要精准回答:使用python等算法自己分析,形成问答对

2、小说章节需要大片章节:使用知识库本身的分块逻辑

二、python算法的编写

现在属于人工智能的时代,我使用Trae直接把需求给它,它直接给我写出了python算法,看来程序员要么转业、要么失业。

提示词是:

bash 复制代码
使用python做一个算法软件,主要功能有:
1、从PDF中读取文本信息、解析表格信息、使用ORC识别读取图片信息等功能。
2、根据页码、段落、表格、图片或者其他自定义的规则形成分块列表,并在分块中追加你认为必要的召回信息。
3、分析分块内容,并在分块中形成关键字、问题以及标签。
4、调用RagFlow的接口创建文档,接口:/api/v1/datasets/{dataset_id}/documents。
5、基于上面创建的文档,调用RagFlow的接口创建分块,接口:/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks。
6、所有需要配置的内容,追加到一个环境配置文件中。

三、结果展示

形成的python算法工程(当然过程中,它反复好几次才最终成功)

上传了PDF文档,并形成了304块分块

分块详细

至此,结束!!!

相关推荐
金銀銅鐵1 天前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学
Lyn_Li1 天前
Kaggle Top 5 | 198只股票、200条数据的金融预测——BattleFin高分方案从零复现
python·kaggle·比赛复盘·金融预测
小九九的爸爸2 天前
前端想要入门Agent开发,要具备哪些Python基础?
python·agent·ai编程
阿耶同学2 天前
手把手教你用 LangGraph 搭建三层嵌套 Agent 架构
python·程序员
花酒锄作田2 天前
Pydantic校验配置文件
python
hboot2 天前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络
ZhengEnCi3 天前
P2M-Matplotlib折线图完全指南-从数据可视化到趋势分析的Python绘图利器
python·matlab·数据可视化
ZhengEnCi3 天前
P2L-Matplotlib饼图完全指南-从数据可视化到图表定制的Python绘图利器
python·matlab
曲幽3 天前
你的REST接口还在“过度投喂”数据吗?——FastAPI + GraphQL实战避坑指南
python·fastapi·web·graphql·route·cors·rest·strawberry
用户8358086187913 天前
基于 Self-RAG 与列表级重排序的进阶 RAG 系统设计与实现
python