【GitHub每日速递 251023】46.1k star, 1.2B参数逆袭!MinerU2.5成最牛文档解析多模态大模型

原文:https://mp.weixin.qq.com/s/0V9R33AYXPjbgcO-OkBsNg

Klavis AI:突破工具集成极限,4 种方式让 AI 无缝对接多服务!

klavis 是一个实现MCP集成层的AI工具。简单讲,它让AI代理能稳定使用成千上万种工具。适用人群:AI开发者、自动化工具构建者

项目地址:https://github.com/Klavis-AI/klavis

主要语言:Python

stars: 4.9k

Klavis AI 提供了让 AI 代理在任何规模下可靠使用工具的 MCP 集成层,主要有以下两个核心解决方案:

  • Strata:作为统一的 MCP 路由器,是一个单一的 MCP 服务器,可让 AI 代理在任何规模下可靠地使用工具。它具备可扩展的工具集成能力,能突破 40 - 50 个工具的限制;还能进行渐进式发现,逐步引导代理从意图到行动。
  • MCP 集成:拥有 50 多个生产 MCP 服务器,支持企业 OAuth,可将 AI 连接到 GitHub、Gmail、Slack、Salesforce 等服务。采用真正的 OAuth 认证,而非仅依赖 API 密钥,并且支持 Docker,可实现一键部署。

优势

  • 可扩展性:Strata 能突破工具数量限制,满足大规模工具使用的需求。
  • 渐进式引导:帮助 AI 代理从意图到行动逐步推进,提高使用工具的可靠性。
  • 丰富的集成:50 多个 MCP 服务器涵盖了众多主流服务,方便 AI 与各种平台连接。
  • 安全认证:使用真正的 OAuth 认证,保障数据安全。
  • 便捷部署:支持 Docker 部署,简化部署流程。

应用场景

  • 自动化办公:AI 代理可通过 Klavis AI 集成的各种办公工具,如 Gmail、Slack 等,实现自动化的邮件处理、消息沟通等任务。
  • 数据分析:连接到 Salesforce 等数据平台,让 AI 代理获取和分析数据,为决策提供支持。
  • 软件开发:在 Claude Code、Cursor、VSCode 等开发环境中使用 Strata 或单个 MCP 服务器,提高开发效率。

快速启动方式

  • 开源方式:可在自己的基础设施上进行自托管,通过 Docker 拉取并运行 MCP 集成,同时在本地安装开源的 Strata。
  • WebUI 托管服务:无需任何设置,只需注册账号,按照快速入门指南操作,即可在相关开发环境中使用。
  • SDK 方式:提供 Python 和 TypeScript SDK,可用于构建自定义应用程序。
  • 直接 API 方式:使用 REST API,适用于任何编程语言。

1.2B参数逆袭!MinerU2.5成最牛文档解析多模态大模型

MinerU 是一个将复杂文档(如PDF)转换为适合大语言模型使用的Markdown/JSON格式的工具。简单讲,它能把难以处理的PDF文件变成AI容易理解的结构化文本。适用人群:需要处理文档数据的开发者、AI应用工程师、研究人员。

项目地址:https://github.com/opendatalab/MinerU

主要语言:Python

stars: 46.1k

MinerU是一个将PDF转换为机器可读格式(如Markdown、JSON)的工具,便于将内容提取为任意格式。该工具诞生于InternLM的预训练过程,专注于解决科学文献中的符号转换问题,为大模型时代的技术发展贡献力量。

核心功能

  • 去除干扰信息:去除页眉、页脚、脚注和页码等,确保语义连贯。
  • 按阅读顺序输出:以人类可读的顺序输出文本,适用于单栏、多栏和复杂布局。
  • 保留文档结构:保留原始文档的结构,包括标题、段落、列表等。
  • 提取元素:提取图像、图像描述、表格、表格标题和脚注。
  • 公式和表格转换:自动识别文档中的公式并转换为LaTeX格式,自动识别表格并转换为HTML格式。
  • OCR功能:自动检测扫描PDF和乱码PDF并启用OCR功能,支持检测和识别84种语言。
  • 多格式输出:支持多种输出格式,如多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。
  • 可视化结果:支持各种可视化结果,包括布局可视化和跨度可视化,便于确认输出质量。
  • 多环境支持:支持在纯CPU环境中运行,也支持GPU(CUDA)/NPU(CANN)/MPS加速,兼容Windows、Linux和Mac平台。

快速开始

pip或uv安装MinerU

bash 复制代码
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[core]"

源码安装MinerU

bash 复制代码
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core]

在线体验

本地部署

安装前需注意,为确保项目的稳定性和可靠性,开发过程中仅针对特定的硬件和软件环境进行了优化和测试。不同解析后端对操作系统、CPU、GPU、内存、磁盘空间和Python版本有不同要求。安装方式有多种,可使用pip或uv安装,也可从源代码安装,还能通过Docker部署。使用时,最简单的命令行调用为mineru -p <input_path> -o <output_path>,也可通过命令行、API和WebUI等多种方式进行PDF解析。

优势与应用场景

  • 优势:开源免费,具有丰富的功能和良好的兼容性,不断更新迭代以提升性能和修复问题。
  • 应用场景:适用于科研人员提取文献内容、数据处理人员进行文档数据转换、企业进行文档管理和信息提取等场景。
相关推荐
猴子吃桃_Q1 天前
【GitHub每日速递 251022】81.2k star, Bun:替代 Node.js 的全栈 JavaScript 神器,快速上手攻略来了!
github每日速递
猴子吃桃_Q2 天前
【GitHub每日速递 251021】一键将全新Arch安装变身超美现代Web开发系统!Omarchy太神了
github每日速递
猴子吃桃_Q8 天前
【GitHub每日速递 251015】爆火, 20k star!小智 AI 聊天机器人多端控制+70 多个开源硬件支持,大模型应用新玩法
github每日速递
猴子吃桃_Q9 天前
【GitHub每日速递 251014】Claude Code:用自然语言命令让编码快到飞起!
github每日速递
猴子吃桃_Q10 天前
【GitHub每日速递 251013】SurfSense:可定制AI研究神器,连接多源知识,功能超丰富!
github每日速递
猴子吃桃_Q12 天前
【GitHub每日速递 251011】无需注册!本地开源AI应用构建器Dyad,跨平台速下载!
github每日速递
猴子吃桃_Q13 天前
【GitHub每日速递 251010】Zen MCP:一键 orchestrate 多 AI 模型,代码开发协作新革命!
github每日速递
猴子吃桃_Q14 天前
【GitHub每日速递 251009】AI时代必备!Stagehand浏览器自动化框架解锁高效新玩法
github每日速递
猴子吃桃_Q23 天前
【GitHub每日速递 250930】从 0 到 1 玩 AI 开发:OpenManus 免邀请、ChatDev 自动组队、MetaGPT 全流程,总有一款适合你
github每日速递