利用Python算法,解析PDF文件并生成文档分块Chunks,追加到RagFlow知识库

一、知识库的分块选型

1、法律条文需要精准回答:使用python等算法自己分析,形成问答对

2、小说章节需要大片章节:使用知识库本身的分块逻辑

二、python算法的编写

现在属于人工智能的时代,我使用Trae直接把需求给它,它直接给我写出了python算法,看来程序员要么转业、要么失业。

提示词是:

bash 复制代码
使用python做一个算法软件,主要功能有:
1、从PDF中读取文本信息、解析表格信息、使用ORC识别读取图片信息等功能。
2、根据页码、段落、表格、图片或者其他自定义的规则形成分块列表,并在分块中追加你认为必要的召回信息。
3、分析分块内容,并在分块中形成关键字、问题以及标签。
4、调用RagFlow的接口创建文档,接口:/api/v1/datasets/{dataset_id}/documents。
5、基于上面创建的文档,调用RagFlow的接口创建分块,接口:/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks。
6、所有需要配置的内容,追加到一个环境配置文件中。

三、结果展示

形成的python算法工程(当然过程中,它反复好几次才最终成功)

上传了PDF文档,并形成了304块分块

分块详细

至此,结束!!!

相关推荐
铁蛋AI编程实战2 分钟前
AI调用人类服务入门与Python实现(30分钟搭建“AI+真人”协作系统)
开发语言·人工智能·python
zhougl9963 分钟前
Java 常见异常梳理
java·开发语言·python
sensen_kiss6 分钟前
Jupter Notebook 使用教程
大数据·人工智能·python·学习·数据分析
独自破碎E7 分钟前
已经 Push 到远程的提交,如何修改 Commit 信息?
开发语言·github
多恩Stone17 分钟前
【3D-AICG 系列-1】Trellis v1 和 Trellis v2 的区别和改进
人工智能·pytorch·python·算法·3d·aigc
数智工坊20 分钟前
【数据结构-栈、队列、数组】3.3栈在括号匹配-表达式求值上
java·开发语言·数据结构
lsx20240622 分钟前
Bootstrap 插件概览
开发语言
毕设源码-钟学长23 分钟前
【开题答辩全过程】以 基于PHP的动漫社区的设计与实现为例,包含答辩的问题和答案
开发语言·php
狂奔蜗牛飙车26 分钟前
Python学习之路-Python3 迭代器与生成器学习详解
开发语言·python·学习·#python学习笔记·python迭代器生成器
xqqxqxxq30 分钟前
洛谷算法1-3 暴力枚举(NOIP经典真题解析)java(持续更新)
java·开发语言·算法