3K star!为RAG而生的数据清洗神器

现在的AI时代,人工智能和大模型的能力很大程度上依赖于数据的质量,但是 数据具有不同的形状和大小,因此处理数据非常具有挑战性。

今天我们分享一个开源项目,它为微调或者RAG而生,将任何非结构化数据转换为结构化,它就是:OmniParse

OmniParse 是什么

OmniParse 是一个平台,它可以提取和解析任何非结构化数据,将其转换为针对 GenAI (LLM) 应用程序优化的结构化、可操作数据。无论您处理的是文档、表格、图像、视频、音频文件还是网页,OmniParse 都可以将您的数据准备得干净、结构化,并可用于 RAG、微调等 AI 应用程序

以下是目前支持处理的文件类型:

安装和使用

源码安装

目前OmniParse源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。

bash 复制代码
git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse

创建虚拟环境:

ini 复制代码
conda create --n omniparse-venv python=3.10
conda activate omniparse-venv

安装依赖项:

arduino 复制代码
poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml

docker安装

也可以通过docker来使用OmniParse

arduino 复制代码
docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse

运行服务

css 复制代码
#运行服务器:
python server.py --host 0.0.0.0 --port 8000 --documents --media --web

#--documents:加载所有帮助您解析和提取文档的模型(Surya OCR系列模型和Florence-2)。
#--media:加载Whisper模型来转录音频和视频文件。
#--web:设置selenium爬虫。

启动后会提供一个API服务,内容可以参考以下:

执行示例

以下是执行文档解析的例子,可以解析 PDF、PowerPoint 或 Word 文档。

bash 复制代码
#Curl 命令:
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>

解析图像文件(PNG、JPEG、JPG、TIFF、WEBP)。

bash 复制代码
#Curl 命令:

curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>

产品特点

✅ 完全本地,无需外部 API

✅ 适合 T4 GPU

✅ 支持 ~20 种文件类型

✅ 将文档、多媒体和网页转换为高质量的结构化 markdown

✅ 表格提取、图像提取/字幕、音频/视频转录、网页抓取

✅ 使用 Docker 和 Skypilot 轻松部署

✅ Colab 友好

✅ 由 Gradio 提供支持的交互式 UI

总结

OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。

项目信息

相关推荐
白云~️1 小时前
uniappx 打包配置32位64位x86安装包
运维·服务器·github
白总Server2 小时前
多智能体系统的中间件架构
linux·运维·服务器·中间件·ribbon·架构·github
uhakadotcom4 小时前
过来人教你写简历的技巧(如何写简历,个人评价 / 个人优势如何写)
面试·架构·github
海天鹰6 小时前
Support for password authentication was removed on August 13, 2021
github
L2ncE9 小时前
【LanTech】DeepWiki 101 —— 以后不用自己写README了
人工智能·程序员·github
我是哈哈hh10 小时前
【Git】初始Git及入门命令行
git·gitee·github·版本控制器
极小狐10 小时前
如何创建并使用极狐GitLab 部署令牌?
运维·git·ssh·gitlab·github
量子位10 小时前
图像编辑开源新 SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
人工智能·llm
Kusunoki_D11 小时前
Win11 配置 Git 绑定 Github 账号的方法与问题汇总
git·github
过期的秋刀鱼!11 小时前
数据分析之技术干货业务价值 powerquery 分组排序后取TOP
数据挖掘·数据分析·excel·数据清洗·分组排序·powerquery·电商货品分析