全能文档解析服务doc-mcp-server

项目概述

doc-mcp-server 是一个基于 MCP (Model Context Protocol) 的文档读取服务,专为解决 trae 读取各种文档格式而创建。该服务提供了统一的接口,支持读取 Word、Excel、PowerPoint、PDF 文档以及图片 OCR 识别,确保 trae 能够正确处理和分析各种格式的文档内容。

核心功能

  • Word 文档读取:支持读取 .docx 格式文档内容
  • Excel 表格读取:支持读取 .xlsx 格式表格数据
  • PowerPoint 读取:支持读取 .pptx 格式演示文稿内容
  • PDF 文档读取:支持提取 PDF 文档中的文本内容
  • 图片 OCR 识别:支持识别图片中的文字内容

技术栈

  • 后端语言:Python 3.11
  • 核心框架:MCP (Model Context Protocol)
  • 文档处理库
    • python-docx (Word 处理)
    • pandas + openpyxl (Excel 处理)
    • python-pptx (PowerPoint 处理)
    • pdfplumber (PDF 处理)
    • pytesseract + Pillow (OCR 处理)
  • 容器化:Docker + docker-compose

环境要求

  • Python 3.11+ (直接运行)
  • Docker (容器化部署)
  • tesseract-ocr (OCR 功能需要)

安装与部署

方法一:直接运行

  1. 克隆项目到本地

  2. 进入 src 目录

  3. 安装依赖:

    bash 复制代码
    pip install -r requirements.txt
  4. 安装 tesseract-ocr(OCR 功能需要):

    • Windows: 下载并安装 tesseract-ocr
    • Ubuntu/Debian: apt-get install tesseract-ocr
    • macOS: brew install tesseract
  5. 启动服务:

    bash 复制代码
    python server.py

方法二:Docker 部署

  1. 克隆项目到本地

  2. 进入 src 目录

  3. 构建并启动容器:

    bash 复制代码
    docker-compose up -d

项目结构

复制代码
doc-mcp-server/
├── src/
│   ├── Dockerfile          # Docker 构建文件
│   ├── docker-compose.yml  # Docker 编排配置
│   ├── requirements.txt    # Python 依赖项
│   └── server.py           # 主服务代码
├── LICENSE                 # 许可证文件
└── README.md               # 项目文档

使用方法

调用 MCP 服务

服务启动后,可以通过 MCP 协议调用以下工具:

  1. 读取 Word 文档

    • 工具名:read_word
    • 参数:file_bytes (bytes) - Word 文档的二进制数据
    • 返回:文档文本内容
  2. 读取 PDF 文档

    • 工具名:read_pdf
    • 参数:file_bytes (bytes) - PDF 文档的二进制数据
    • 返回:文档文本内容
  3. 读取 Excel 表格

    • 工具名:read_excel
    • 参数:file_bytes (bytes) - Excel 文档的二进制数据
    • 返回:表格数据的字符串表示
  4. 读取 PowerPoint 演示文稿

    • 工具名:read_ppt
    • 参数:file_bytes (bytes) - PowerPoint 文档的二进制数据
    • 返回:演示文稿文本内容
  5. 图片 OCR 识别

    • 工具名:ocr_image
    • 参数:file_bytes (bytes) - 图片的二进制数据
    • 返回:识别的文本内容

示例代码

python 复制代码
# 示例:使用 MCP 客户端调用 read_word 工具
from mcp.client import MCPClient

client = MCPClient("http://localhost:8000")

# 读取本地 Word 文档
with open("example.docx", "rb") as f:
    file_bytes = f.read()

result = client.call("read_word", file_bytes=file_bytes)
print(result)

配置说明

Docker 配置

  • Dockerfile:基于 Python 3.11-slim 镜像,安装 tesseract-ocr 和项目依赖
  • docker-compose.yml:定义了 doc-mcp 服务,设置为自动重启

依赖项配置

项目依赖项在 requirements.txt 文件中定义,包括:

  • mcp
  • python-docx
  • pandas
  • openpyxl
  • python-pptx
  • pdfplumber
  • pytesseract
  • pillow

本地 MCP 配置

在本地开发和测试环境中,可以使用以下 MCP 配置信息:

json 复制代码
{
  "mcpServers": {
    "document-reader": {
      "command": "C:\\ProgramData\\anaconda3\\envs\\docmcp\\python.exe",
      "args": [
        "C:\\codes\\doc-mcp-server\\src\\server.py"
      ]
    }
  }
}

此配置适用于本地开发和测试环境,使用 Anaconda 环境中的 Python 解释器运行服务。确保路径引用准确无误,根据实际安装位置进行调整。

常见问题解答

  1. OCR 功能无法使用

    • 确保已安装 tesseract-ocr
    • Docker 部署已自动安装 tesseract-ocr
  2. 服务启动失败

    • 检查 Python 版本是否为 3.11+
    • 检查依赖项是否正确安装
  3. 文档读取失败

    • 确保文档格式正确
    • 检查文件大小是否合理

贡献指南

欢迎提交 Issue 和 Pull Request 来改进这个项目。贡献前请确保:

  1. 代码风格一致
  2. 添加必要的测试
  3. 更新相关文档

维护者

  • willhuo\] - [willhuo@outlook.com](mailto:willhuo@outlook.com)

MIT License

相关推荐
m0_7349497916 小时前
MySQL如何配置定时清理过期备份文件_find命令与保留周期策略
jvm·数据库·python
m0_5145205716 小时前
MySQL索引优化后性能没提升_通过EXPLAIN查看索引命中率
jvm·数据库·python
H Journey16 小时前
Python 国内pip install 安装缓慢
python·pip·install 加速
码以致用17 小时前
DeerFlow Memory架构
人工智能·ai·架构·agent
数数科技的数据干货18 小时前
ThinkingAI携手华为云,共建企业级AI Agent平台Agentic Engine
人工智能·ai·华为云·agent
Polar__Star18 小时前
如何在 AWS Lambda 中正确使用临时凭证生成 S3 预签名 URL
jvm·数据库·python
fanly1118 小时前
surging 的Agent插件研发全流程:从定义到落地
微服务·ai·surging
不停喝水18 小时前
【AI+Cursor】 告别切图仔,拥抱Vibe Coding: AI + Cursor 开启多模态全栈新纪元 (1)
前端·人工智能·后端·ai·ai编程·cursor
m0_7436239218 小时前
React 自定义 Hook 的命名规范与调用规则详解
jvm·数据库·python
FreakStudio18 小时前
无硬件学LVGL—定时器篇:基于Web模拟器+MicroPython速通GUI开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机