开源AI信息挖掘神器,你的首席情报官

面对海量的信息,数据挖掘就显得尤为重要,我们缺的其实不是信息,我们需要从海量信息中过滤噪音,从而让价值信息显露出来!

今天我们分享一个开源项目,帮助你从纷繁的数据中发掘其具备的价值,并且可以有效的和AI大模型集成,它就是:Wiseflow

Wiseflow 是什么

Wiseflow是一款敏捷的信息提取工具,能够根据预定义的关注点,从网站、微信公众号、社交媒体平台等各类来源提炼信息,自动分类标签并上传至数据库。

WiseFlow 几乎没有硬件要求,系统开销极小,如果配合在线 LLM 服务那么就不需要 GPU 或 CUDA。

爬虫、agent的对比

WiseFlow 的作用会让人感觉和网页爬虫有很相似的地方,因此我们也将wiseflow和一般的网页爬虫以及现在比较多的大模型agent做一下对比。

主要解决的问题:

  • WiseFlow:数据的处理和挖掘,包括过滤、提取和标签
  • 爬虫:主要是原始数据的获取
  • 大模型agent:主要是下游的应用

wiseflow可以和爬虫组合,在获取的原始数据基础上做更好的数据处理和挖掘,也可以和大模型Agent连接,将wiseflow作为知识基础,来更好的帮助大模型处理事物。

安装和使用

克隆项目

bash 复制代码
git clone <https://github.com/TeamWiseFlow/wiseflow.git> cd wiseflow

推荐使用 Docker

对于中国区用户,需要正确配置你的网络或指定Docker Hub镜像

复制代码
docker compose up

您可以compose.yaml根据需要进行修改。

注意:

在 wiseflow 存储库的根目录中运行上述命令。

运行前,参考.envenv_sample.env文件,在Dockerfile所在目录(wiseflow仓库根目录)新建并编辑一个 .env 文件。

第一次运行 Docker 容器时可能会出现错误,因为您尚未为 pb 存储库创建管理员帐户。

此时,保持容器运行,http://127.0.0.1:8090/_/在浏览器中打开,并按照说明创建一个管理员帐户(确保使用电子邮件)。然后将创建的管理员电子邮件(再次确保它是电子邮件)和密码输入到文件中.env,然后重新启动容器。

如果要更改容器的时区和语言(这将决定提示语言,但对结果影响不大),请使用以下命令运行镜像

ini 复制代码
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image

替代方案\] 直接使用 Python 运行 ```ini conda create -n wiseflow python=3.10 conda activate wiseflow cd core pip install -r requirement.txt ``` 13. 然后,您可以使用 core/scripts 中的脚本单独启动 pb、task 和 backend(将脚本文件移动到 core 目录)。 通过 pocketbase 访问数据: * [http://127.0.0.1:8090/_/](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2F_%2F "http://127.0.0.1:8090/_/") 管理仪表板用户界面 * [http://127.0.0.1:8090/api/-REST](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2Fapi%2F-REST "http://127.0.0.1:8090/api/-REST") API 在使用Wiseflow之前,需要配置一些环境变量,如LLM服务的API KEY、日志级别等。同时,Wiseflow建议**GET_INFO_MODEL** 使用"zhipuai/glm4-9B-chat" **,REWRITE_MODEL使用** "alibaba/Qwen2-7B-Instruct" **,HTML_PARSE_MODEL使用**"alibaba/Qwen2-7B-Instruct"。 这些模型非常适合这个项目,它们对指令的遵循性非常稳定,生成质量也非常出色。该项目的提示已针对这三个模型进行了优化。 关注点和定时扫描源添加 启动程序后,打开 pocketbase Admin dashboard UI ([http://127.0.0.1:8090/_/](https://link.juejin.cn?target=http%3A%2F%2F127.0.0.1%3A8090%2F_%2F "http://127.0.0.1:8090/_/")) 主要设置tags表单和sietes表单 * tags表单,可以指定你的关注点,LLM会按此提炼、过滤并分类信息。包括name和activated,name的描述应该更加具体一些才会获取更好的效果。 * sites表单,可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。字段包括了信源的url、扫描频率(per_hours)和activated。 # 产品特点 WiseFlow包括了以下的产品特点: * 原始 LLM 应用:我们精心选择不同的 7B\~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。 * 轻量化设计:不用任何向量模型,系统比特币带宽,无需GPU,适合任何硬件环境。 * ️智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章请查看信息,为此我们配置了mp文章专属解析器! * 它可以整合至任意Agent项目:可以作为任意Agent项目的动态知识库,无需了解wiseflow代码,即可与数据库进行读取操作即可! * 热门 Pocketbase:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的 SDK。 # 总结 OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。 ![](https://p6-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/abd44256f3ea4ccab6bd2c5abd9d2dee~tplv-73owjymdk6-watermark.image)[](https://link.juejin.cn?target= "") # 项目信息 * 项目名称: wiseflow * GitHub 链接:[github.com/TeamWiseFlo...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2FTeamWiseFlow%2Fwiseflow "https://github.com/TeamWiseFlow/wiseflow") * Star 数:1K

相关推荐
宝桥南山21 分钟前
DeepSeek - 尝试一下GitHub Models中的DeepSeek
microsoft·ai·微软·c#·github·.net
lifeng43212 小时前
在 CentOS 上将 Ansible 项目推送到 GitHub 的完整指南
centos·github·ansible
小华同学ai2 小时前
千万别错过!这个国产开源项目彻底改变了你的域名资产管理方式,收藏它相当于多一个安全专家!
前端·后端·github
独立开阀者_FwtCoder5 小时前
一个 Cursor mdc 自动生成器,基于Gemini 2.5,很实用!
前端·javascript·github
我是哪吒6 小时前
分布式微服务系统架构第144集:FastAPI全栈开发教育系统
后端·面试·github
梓羽玩Python7 小时前
PDF解剖大师来了!LandingAI开源神器,这个Python库让百页文档秒变结构化数据!
python·github
网安刚哥7 小时前
我们开源了一款AI产品……
程序员·开源·github
Cynthia-石头11 小时前
Git Github Gitee GitLab
git·gitee·github
电鱼智能的电小鱼18 小时前
虚拟现实教育终端技术方案——基于EFISH-SCB-RK3588的全场景国产化替代
linux·网络·人工智能·分类·数据挖掘·vr
小王毕业啦20 小时前
2022年 国内税务年鉴PDF电子版Excel
大数据·人工智能·数据挖掘·数据分析·数据统计·年鉴·社科数据