开源AI信息挖掘神器,你的首席情报官

面对海量的信息,数据挖掘就显得尤为重要,我们缺的其实不是信息,我们需要从海量信息中过滤噪音,从而让价值信息显露出来!

今天我们分享一个开源项目,帮助你从纷繁的数据中发掘其具备的价值,并且可以有效的和AI大模型集成,它就是:Wiseflow

Wiseflow 是什么

Wiseflow是一款敏捷的信息提取工具,能够根据预定义的关注点,从网站、微信公众号、社交媒体平台等各类来源提炼信息,自动分类标签并上传至数据库。

WiseFlow 几乎没有硬件要求,系统开销极小,如果配合在线 LLM 服务那么就不需要 GPU 或 CUDA。

爬虫、agent的对比

WiseFlow 的作用会让人感觉和网页爬虫有很相似的地方,因此我们也将wiseflow和一般的网页爬虫以及现在比较多的大模型agent做一下对比。

主要解决的问题:

  • WiseFlow:数据的处理和挖掘,包括过滤、提取和标签
  • 爬虫:主要是原始数据的获取
  • 大模型agent:主要是下游的应用

wiseflow可以和爬虫组合,在获取的原始数据基础上做更好的数据处理和挖掘,也可以和大模型Agent连接,将wiseflow作为知识基础,来更好的帮助大模型处理事物。

安装和使用

克隆项目

bash 复制代码
git clone <https://github.com/TeamWiseFlow/wiseflow.git> cd wiseflow

推荐使用 Docker

对于中国区用户,需要正确配置你的网络或指定Docker Hub镜像

docker compose up

您可以compose.yaml根据需要进行修改。

注意:

在 wiseflow 存储库的根目录中运行上述命令。

运行前,参考.envenv_sample.env文件,在Dockerfile所在目录(wiseflow仓库根目录)新建并编辑一个 .env 文件。

第一次运行 Docker 容器时可能会出现错误,因为您尚未为 pb 存储库创建管理员帐户。

此时,保持容器运行,http://127.0.0.1:8090/_/在浏览器中打开,并按照说明创建一个管理员帐户(确保使用电子邮件)。然后将创建的管理员电子邮件(再次确保它是电子邮件)和密码输入到文件中.env,然后重新启动容器。

如果要更改容器的时区和语言(这将决定提示语言,但对结果影响不大),请使用以下命令运行镜像

ini 复制代码
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image

[替代方案] 直接使用 Python 运行

ini 复制代码
conda create -n wiseflow python=3.10 conda activate wiseflow cd core pip install -r requirement.txt
  1. 然后,您可以使用 core/scripts 中的脚本单独启动 pb、task 和 backend(将脚本文件移动到 core 目录)。

通过 pocketbase 访问数据:

在使用Wiseflow之前,需要配置一些环境变量,如LLM服务的API KEY、日志级别等。同时,Wiseflow建议GET_INFO_MODEL 使用"zhipuai/glm4-9B-chat" ,REWRITE_MODEL使用 "alibaba/Qwen2-7B-Instruct" ,HTML_PARSE_MODEL使用"alibaba/Qwen2-7B-Instruct"。

这些模型非常适合这个项目,它们对指令的遵循性非常稳定,生成质量也非常出色。该项目的提示已针对这三个模型进行了优化。

关注点和定时扫描源添加

启动程序后,打开 pocketbase Admin dashboard UI (http://127.0.0.1:8090/_/)

主要设置tags表单和sietes表单

  • tags表单,可以指定你的关注点,LLM会按此提炼、过滤并分类信息。包括name和activated,name的描述应该更加具体一些才会获取更好的效果。
  • sites表单,可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。字段包括了信源的url、扫描频率(per_hours)和activated。

产品特点

WiseFlow包括了以下的产品特点:

  • 原始 LLM 应用:我们精心选择不同的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。
  • 轻量化设计:不用任何向量模型,系统比特币带宽,无需GPU,适合任何硬件环境。
  • ️智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章请查看信息,为此我们配置了mp文章专属解析器!
  • 它可以整合至任意Agent项目:可以作为任意Agent项目的动态知识库,无需了解wiseflow代码,即可与数据库进行读取操作即可!
  • 热门 Pocketbase:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的 SDK。

总结

OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。

项目信息

相关推荐
惟长堤一痕4 小时前
医学数据分析实训 项目七 集成学习--空气质量指标--天气质量分析和预测
学习·数据挖掘·数据分析
lizi8888812 小时前
足球大小球及亚盘数据分析与机器学习实战详解:从数据清洗到模型优化
java·人工智能·机器学习·数据挖掘·数据分析
安静的_显眼包O_o16 小时前
【数据分析】标准误差与标准差的区别
数据挖掘·数据分析
The Mr.Nobody18 小时前
打通最后一公里:使用CDN加速GitHub Page的访问
github
Amagi.19 小时前
如何将本地项目上传到GitHub(SSH连接)
github
惟长堤一痕19 小时前
医学数据分析实训 项目五 分类分析--乳腺癌数据分析与诊断
分类·数据挖掘·数据分析
白总Server1 天前
php语言基本语法
开发语言·ide·后端·golang·rust·github·php
网安詹姆斯1 天前
网络安全(黑客技术)2024年三个月自学计划
网络·数据结构·python·mysql·安全·web安全·github
爱吃番茄的小狐狸1 天前
Docker镜像下载-使用github action- 解决无法下载docker镜像的问题
docker·容器·github
毅凉1 天前
git笔记
gitee·github·gitcode