开源AI信息挖掘神器,你的首席情报官

面对海量的信息,数据挖掘就显得尤为重要,我们缺的其实不是信息,我们需要从海量信息中过滤噪音,从而让价值信息显露出来!

今天我们分享一个开源项目,帮助你从纷繁的数据中发掘其具备的价值,并且可以有效的和AI大模型集成,它就是:Wiseflow

Wiseflow 是什么

Wiseflow是一款敏捷的信息提取工具,能够根据预定义的关注点,从网站、微信公众号、社交媒体平台等各类来源提炼信息,自动分类标签并上传至数据库。

WiseFlow 几乎没有硬件要求,系统开销极小,如果配合在线 LLM 服务那么就不需要 GPU 或 CUDA。

爬虫、agent的对比

WiseFlow 的作用会让人感觉和网页爬虫有很相似的地方,因此我们也将wiseflow和一般的网页爬虫以及现在比较多的大模型agent做一下对比。

主要解决的问题:

  • WiseFlow:数据的处理和挖掘,包括过滤、提取和标签
  • 爬虫:主要是原始数据的获取
  • 大模型agent:主要是下游的应用

wiseflow可以和爬虫组合,在获取的原始数据基础上做更好的数据处理和挖掘,也可以和大模型Agent连接,将wiseflow作为知识基础,来更好的帮助大模型处理事物。

安装和使用

克隆项目

bash 复制代码
git clone <https://github.com/TeamWiseFlow/wiseflow.git> cd wiseflow

推荐使用 Docker

对于中国区用户,需要正确配置你的网络或指定Docker Hub镜像

docker compose up

您可以compose.yaml根据需要进行修改。

注意:

在 wiseflow 存储库的根目录中运行上述命令。

运行前,参考.envenv_sample.env文件,在Dockerfile所在目录(wiseflow仓库根目录)新建并编辑一个 .env 文件。

第一次运行 Docker 容器时可能会出现错误,因为您尚未为 pb 存储库创建管理员帐户。

此时,保持容器运行,http://127.0.0.1:8090/_/在浏览器中打开,并按照说明创建一个管理员帐户(确保使用电子邮件)。然后将创建的管理员电子邮件(再次确保它是电子邮件)和密码输入到文件中.env,然后重新启动容器。

如果要更改容器的时区和语言(这将决定提示语言,但对结果影响不大),请使用以下命令运行镜像

ini 复制代码
docker run -e LANG=zh_CN.UTF-8 -e LC_CTYPE=zh_CN.UTF-8 your_image

[替代方案] 直接使用 Python 运行

ini 复制代码
conda create -n wiseflow python=3.10 conda activate wiseflow cd core pip install -r requirement.txt
  1. 然后,您可以使用 core/scripts 中的脚本单独启动 pb、task 和 backend(将脚本文件移动到 core 目录)。

通过 pocketbase 访问数据:

在使用Wiseflow之前,需要配置一些环境变量,如LLM服务的API KEY、日志级别等。同时,Wiseflow建议GET_INFO_MODEL 使用"zhipuai/glm4-9B-chat" ,REWRITE_MODEL使用 "alibaba/Qwen2-7B-Instruct" ,HTML_PARSE_MODEL使用"alibaba/Qwen2-7B-Instruct"。

这些模型非常适合这个项目,它们对指令的遵循性非常稳定,生成质量也非常出色。该项目的提示已针对这三个模型进行了优化。

关注点和定时扫描源添加

启动程序后,打开 pocketbase Admin dashboard UI (http://127.0.0.1:8090/_/)

主要设置tags表单和sietes表单

  • tags表单,可以指定你的关注点,LLM会按此提炼、过滤并分类信息。包括name和activated,name的描述应该更加具体一些才会获取更好的效果。
  • sites表单,可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。字段包括了信源的url、扫描频率(per_hours)和activated。

产品特点

WiseFlow包括了以下的产品特点:

  • 原始 LLM 应用:我们精心选择不同的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。
  • 轻量化设计:不用任何向量模型,系统比特币带宽,无需GPU,适合任何硬件环境。
  • ️智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章请查看信息,为此我们配置了mp文章专属解析器!
  • 它可以整合至任意Agent项目:可以作为任意Agent项目的动态知识库,无需了解wiseflow代码,即可与数据库进行读取操作即可!
  • 热门 Pocketbase:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的 SDK。

总结

OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得最结构化、最可操作且对 GenAI (LLM) 友好的输出。目前来看项目的思路的实用性很不错,当然目前项目在使用上也有一些不完善,比如它擅长解析英语,但对于中文等语言可能会有困难,另外对于PDF中公式转LaTeX会有困难,具体的可以参考项目给出的信息。

项目信息

相关推荐
罗克米15 分钟前
通过脚本,发起分支合并请求和打tag
github
喔喔咿哈哈1 小时前
【手撕 Spring】 -- Bean 的创建以及获取
java·后端·spring·面试·开源·github
zzxxlty2 小时前
MacOS 本地生成SSH key并关联Github
macos·ssh·github
曼陀罗2 小时前
【github】PR 的一些实用操作
github
Watermelo6175 小时前
通过MongoDB Atlas 实现语义搜索与 RAG——迈向AI的搜索机制
人工智能·深度学习·神经网络·mongodb·机器学习·自然语言处理·数据挖掘
aPurpleBerry10 小时前
【问题解决】Github上手动Delete file之后, git remote add+git push出错
git·github
MarcoAI10 小时前
github SSH连接(windows)
windows·ssh·github
KuaFuAI11 小时前
微软推出的AI无代码编程微应用平台GitHub Spark和国产AI原生无代码工具CodeFlying比到底咋样?
人工智能·github·aigc·ai编程·codeflying·github spark·自然语言开发软件
Mr_Xuhhh13 小时前
递归搜索与回溯算法
c语言·开发语言·c++·算法·github
用户31574760813521 小时前
成为程序员的必经之路” Git “,你学会了吗?
面试·github·全栈