面对海量的信息,数据挖掘就显得尤为重要,我们缺的其实不是信息,我们需要从海量信息中过滤噪音,从而让价值信息显露出来!
今天我们分享一个开源项目,帮助你从纷繁的数据中发掘其具备的价值,并且可以有效的和AI大模型集成,它就是:Wiseflow
Wiseflow 是什么
Wiseflow是一款敏捷的信息提取工具,能够根据预定义的关注点,从网站、微信公众号、社交媒体平台等各类来源提炼信息,自动分类标签并上传至数据库。
WiseFlow 几乎没有硬件要求,系统开销极小,如果配合在线 LLM 服务那么就不需要 GPU 或 CUDA。
爬虫、agent的对比
WiseFlow 的作用会让人感觉和网页爬虫有很相似的地方,因此我们也将wiseflow和一般的网页爬虫以及现在比较多的大模型agent做一下对比。
主要解决的问题:
- WiseFlow:数据的处理和挖掘,包括过滤、提取和标签
- 爬虫:主要是原始数据的获取
- 大模型agent:主要是下游的应用
wiseflow可以和爬虫组合,在获取的原始数据基础上做更好的数据处理和挖掘,也可以和大模型Agent连接,将wiseflow作为知识基础,来更好的帮助大模型处理事物。
安装和使用
克隆项目
bash
git clone <https://github.com/TeamWiseFlow/wiseflow.git> cd wiseflow
推荐使用 Docker
对于中国区用户,需要正确配置你的网络或指定Docker Hub镜像
docker compose up
您可以compose.yaml根据需要进行修改。
注意:
在 wiseflow 存储库的根目录中运行上述命令。
运行前,参考.envenv_sample.env文件,在Dockerfile所在目录(wiseflow仓库根目录)新建并编辑一个 .env 文件。
第一次运行 Docker 容器时可能会出现错误,因为您尚未为 pb 存储库创建管理员帐户。
如果要更改容器的时区和语言(这将决定提示语言,但对结果影响不大),请使用以下命令运行镜像
ini
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image
[替代方案] 直接使用 Python 运行
ini
conda create -n wiseflow python=3.10 conda activate wiseflow cd core pip install -r requirement.txt
- 然后,您可以使用 core/scripts 中的脚本单独启动 pb、task 和 backend(将脚本文件移动到 core 目录)。
通过 pocketbase 访问数据:
- http://127.0.0.1:8090/_/ 管理仪表板用户界面
- http://127.0.0.1:8090/api/-REST API
在使用Wiseflow之前,需要配置一些环境变量,如LLM服务的API KEY、日志级别等。同时,Wiseflow建议GET_INFO_MODEL 使用"zhipuai/glm4-9B-chat" ,REWRITE_MODEL使用 "alibaba/Qwen2-7B-Instruct" ,HTML_PARSE_MODEL使用"alibaba/Qwen2-7B-Instruct"。
这些模型非常适合这个项目,它们对指令的遵循性非常稳定,生成质量也非常出色。该项目的提示已针对这三个模型进行了优化。
关注点和定时扫描源添加
启动程序后,打开 pocketbase Admin dashboard UI (http://127.0.0.1:8090/_/)
主要设置tags表单和sietes表单
- tags表单,可以指定你的关注点,LLM会按此提炼、过滤并分类信息。包括name和activated,name的描述应该更加具体一些才会获取更好的效果。
- sites表单,可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。字段包括了信源的url、扫描频率(per_hours)和activated。
产品特点
WiseFlow包括了以下的产品特点:
- 原始 LLM 应用:我们精心选择不同的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。
- 轻量化设计:不用任何向量模型,系统比特币带宽,无需GPU,适合任何硬件环境。
- ️智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章请查看信息,为此我们配置了mp文章专属解析器!
- 它可以整合至任意Agent项目:可以作为任意Agent项目的动态知识库,无需了解wiseflow代码,即可与数据库进行读取操作即可!
- 热门 Pocketbase:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的 SDK。
总结
OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。
项目信息
- 项目名称: wiseflow
- GitHub 链接:github.com/TeamWiseFlo...
- Star 数:1K