利用Python算法,解析PDF文件并生成文档分块Chunks,追加到RagFlow知识库

一、知识库的分块选型

1、法律条文需要精准回答:使用python等算法自己分析,形成问答对

2、小说章节需要大片章节:使用知识库本身的分块逻辑

二、python算法的编写

现在属于人工智能的时代,我使用Trae直接把需求给它,它直接给我写出了python算法,看来程序员要么转业、要么失业。

提示词是:

bash 复制代码
使用python做一个算法软件,主要功能有:
1、从PDF中读取文本信息、解析表格信息、使用ORC识别读取图片信息等功能。
2、根据页码、段落、表格、图片或者其他自定义的规则形成分块列表,并在分块中追加你认为必要的召回信息。
3、分析分块内容,并在分块中形成关键字、问题以及标签。
4、调用RagFlow的接口创建文档,接口:/api/v1/datasets/{dataset_id}/documents。
5、基于上面创建的文档,调用RagFlow的接口创建分块,接口:/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks。
6、所有需要配置的内容,追加到一个环境配置文件中。

三、结果展示

形成的python算法工程(当然过程中,它反复好几次才最终成功)

上传了PDF文档,并形成了304块分块

分块详细

至此,结束!!!

相关推荐
dev派37 分钟前
AI Agent 系统中的常用 Workflow 模式(2) Evaluator-Optimizer模式
python·langchain
前端付豪2 小时前
AI 数学辅导老师项目构想和初始化
前端·后端·python
用户0332126663673 小时前
将 PDF 文档转换为图片【Python 教程】
python
悟空爬虫4 小时前
UV实战教程,我啥要从Anaconda切换到uv来管理包?
python
dev派4 小时前
AI Agent 系统中的常用 Workflow 模式(1)
python·langchain
明月_清风6 小时前
从“能用”到“专业”:构建生产级装饰器与三层逻辑拆解
后端·python
曲幽16 小时前
数据库实战:FastAPI + SQLAlchemy 2.0 + Alembic 从零搭建,踩坑实录
python·fastapi·web·sqlalchemy·db·asyncio·alembic
用户83562907805120 小时前
Python 实现 PowerPoint 形状动画设置
后端·python
ponponon1 天前
时代的眼泪,nameko 和 eventlet 停止维护后的项目自救,升级和替代之路
python
Flittly1 天前
【从零手写 ClaudeCode:learn-claude-code 项目实战笔记】(5)Skills (技能加载)
python·agent