开源AI信息挖掘神器,你的首席情报官

面对海量的信息,数据挖掘就显得尤为重要,我们缺的其实不是信息,我们需要从海量信息中过滤噪音,从而让价值信息显露出来!

今天我们分享一个开源项目,帮助你从纷繁的数据中发掘其具备的价值,并且可以有效的和AI大模型集成,它就是:Wiseflow

Wiseflow 是什么

Wiseflow是一款敏捷的信息提取工具,能够根据预定义的关注点,从网站、微信公众号、社交媒体平台等各类来源提炼信息,自动分类标签并上传至数据库。

WiseFlow 几乎没有硬件要求,系统开销极小,如果配合在线 LLM 服务那么就不需要 GPU 或 CUDA。

爬虫、agent的对比

WiseFlow 的作用会让人感觉和网页爬虫有很相似的地方,因此我们也将wiseflow和一般的网页爬虫以及现在比较多的大模型agent做一下对比。

主要解决的问题:

  • WiseFlow:数据的处理和挖掘,包括过滤、提取和标签
  • 爬虫:主要是原始数据的获取
  • 大模型agent:主要是下游的应用

wiseflow可以和爬虫组合,在获取的原始数据基础上做更好的数据处理和挖掘,也可以和大模型Agent连接,将wiseflow作为知识基础,来更好的帮助大模型处理事物。

安装和使用

克隆项目

bash 复制代码
git clone <https://github.com/TeamWiseFlow/wiseflow.git> cd wiseflow

推荐使用 Docker

对于中国区用户,需要正确配置你的网络或指定Docker Hub镜像

复制代码
docker compose up

您可以compose.yaml根据需要进行修改。

注意:

在 wiseflow 存储库的根目录中运行上述命令。

运行前,参考.envenv_sample.env文件,在Dockerfile所在目录(wiseflow仓库根目录)新建并编辑一个 .env 文件。

第一次运行 Docker 容器时可能会出现错误,因为您尚未为 pb 存储库创建管理员帐户。

此时,保持容器运行,http://127.0.0.1:8090/_/在浏览器中打开,并按照说明创建一个管理员帐户(确保使用电子邮件)。然后将创建的管理员电子邮件(再次确保它是电子邮件)和密码输入到文件中.env,然后重新启动容器。

如果要更改容器的时区和语言(这将决定提示语言,但对结果影响不大),请使用以下命令运行镜像

ini 复制代码
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image

替代方案\] 直接使用 Python 运行 ```ini conda create -n wiseflow python=3.10 conda activate wiseflow cd core pip install -r requirement.txt ``` 13. 然后,您可以使用 core/scripts 中的脚本单独启动 pb、task 和 backend(将脚本文件移动到 core 目录)。 通过 pocketbase 访问数据: * [http://127.0.0.1:8090/_/](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2F_%2F "http://127.0.0.1:8090/_/") 管理仪表板用户界面 * [http://127.0.0.1:8090/api/-REST](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2Fapi%2F-REST "http://127.0.0.1:8090/api/-REST") API 在使用Wiseflow之前,需要配置一些环境变量,如LLM服务的API KEY、日志级别等。同时,Wiseflow建议**GET_INFO_MODEL** 使用"zhipuai/glm4-9B-chat" **,REWRITE_MODEL使用** "alibaba/Qwen2-7B-Instruct" **,HTML_PARSE_MODEL使用**"alibaba/Qwen2-7B-Instruct"。 这些模型非常适合这个项目,它们对指令的遵循性非常稳定,生成质量也非常出色。该项目的提示已针对这三个模型进行了优化。 关注点和定时扫描源添加 启动程序后,打开 pocketbase Admin dashboard UI ([http://127.0.0.1:8090/_/](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2F_%2F "http://127.0.0.1:8090/_/")) 主要设置tags表单和sietes表单 * tags表单,可以指定你的关注点,LLM会按此提炼、过滤并分类信息。包括name和activated,name的描述应该更加具体一些才会获取更好的效果。 * sites表单,可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。字段包括了信源的url、扫描频率(per_hours)和activated。 # 产品特点 WiseFlow包括了以下的产品特点: * 原始 LLM 应用:我们精心选择不同的 7B\~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。 * 轻量化设计:不用任何向量模型,系统比特币带宽,无需GPU,适合任何硬件环境。 * ️智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章请查看信息,为此我们配置了mp文章专属解析器! * 它可以整合至任意Agent项目:可以作为任意Agent项目的动态知识库,无需了解wiseflow代码,即可与数据库进行读取操作即可! * 热门 Pocketbase:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的 SDK。 # 总结 OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。 ![](https://p6-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/abd44256f3ea4ccab6bd2c5abd9d2dee~tplv-73owjymdk6-watermark.image)[](https://link.juejin.cn?target= "") # 项目信息 * 项目名称: wiseflow * GitHub 链接:[github.com/TeamWiseFlo...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2FTeamWiseFlow%2Fwiseflow "https://github.com/TeamWiseFlow/wiseflow") * Star 数:1K

相关推荐
lilye662 小时前
精益数据分析(56/126):创业阶段的划分与精益数据分析实践
数据挖掘·数据分析
范纹杉想快点毕业4 小时前
以项目的方式学QT开发(一)——超详细讲解(120000多字详细讲解,涵盖qt大量知识)逐步更新!
c语言·数据结构·c++·git·qt·链表·github
lilye665 小时前
精益数据分析(62/126):从客户访谈评分到市场规模估算——移情阶段的实战进阶
数据挖掘·数据分析
tonngw6 小时前
【Mac 从 0 到 1 保姆级配置教程 12】- 安装配置万能的编辑器 VSCode 以及常用插件
git·vscode·后端·macos·开源·编辑器·github
八股文领域大手子7 小时前
HTTP/1.1 host虚拟主机详解
github
Christo37 小时前
关于在深度聚类中Representation Collapse现象
人工智能·深度学习·算法·机器学习·数据挖掘·embedding·聚类
QX_hao7 小时前
【project】--数据挖掘
人工智能·数据挖掘
HORSE RUNNING WILD10 小时前
解决 PicGo 上传 GitHub图床及Marp中Github图片编译常见难题指南
css·python·github
qianmoQ11 小时前
GitHub 趋势日报 (2025年05月13日)
github
关山煮酒12 小时前
【数据挖掘笔记】兴趣度度量Interest of an association rule
笔记·数据挖掘