全能文档解析服务doc-mcp-server

项目概述

doc-mcp-server 是一个基于 MCP (Model Context Protocol) 的文档读取服务,专为解决 trae 读取各种文档格式而创建。该服务提供了统一的接口,支持读取 Word、Excel、PowerPoint、PDF 文档以及图片 OCR 识别,确保 trae 能够正确处理和分析各种格式的文档内容。

核心功能

  • Word 文档读取:支持读取 .docx 格式文档内容
  • Excel 表格读取:支持读取 .xlsx 格式表格数据
  • PowerPoint 读取:支持读取 .pptx 格式演示文稿内容
  • PDF 文档读取:支持提取 PDF 文档中的文本内容
  • 图片 OCR 识别:支持识别图片中的文字内容

技术栈

  • 后端语言:Python 3.11
  • 核心框架:MCP (Model Context Protocol)
  • 文档处理库
    • python-docx (Word 处理)
    • pandas + openpyxl (Excel 处理)
    • python-pptx (PowerPoint 处理)
    • pdfplumber (PDF 处理)
    • pytesseract + Pillow (OCR 处理)
  • 容器化:Docker + docker-compose

环境要求

  • Python 3.11+ (直接运行)
  • Docker (容器化部署)
  • tesseract-ocr (OCR 功能需要)

安装与部署

方法一:直接运行

  1. 克隆项目到本地

  2. 进入 src 目录

  3. 安装依赖:

    bash 复制代码
    pip install -r requirements.txt
  4. 安装 tesseract-ocr(OCR 功能需要):

    • Windows: 下载并安装 tesseract-ocr
    • Ubuntu/Debian: apt-get install tesseract-ocr
    • macOS: brew install tesseract
  5. 启动服务:

    bash 复制代码
    python server.py

方法二:Docker 部署

  1. 克隆项目到本地

  2. 进入 src 目录

  3. 构建并启动容器:

    bash 复制代码
    docker-compose up -d

项目结构

复制代码
doc-mcp-server/
├── src/
│   ├── Dockerfile          # Docker 构建文件
│   ├── docker-compose.yml  # Docker 编排配置
│   ├── requirements.txt    # Python 依赖项
│   └── server.py           # 主服务代码
├── LICENSE                 # 许可证文件
└── README.md               # 项目文档

使用方法

调用 MCP 服务

服务启动后,可以通过 MCP 协议调用以下工具:

  1. 读取 Word 文档

    • 工具名:read_word
    • 参数:file_bytes (bytes) - Word 文档的二进制数据
    • 返回:文档文本内容
  2. 读取 PDF 文档

    • 工具名:read_pdf
    • 参数:file_bytes (bytes) - PDF 文档的二进制数据
    • 返回:文档文本内容
  3. 读取 Excel 表格

    • 工具名:read_excel
    • 参数:file_bytes (bytes) - Excel 文档的二进制数据
    • 返回:表格数据的字符串表示
  4. 读取 PowerPoint 演示文稿

    • 工具名:read_ppt
    • 参数:file_bytes (bytes) - PowerPoint 文档的二进制数据
    • 返回:演示文稿文本内容
  5. 图片 OCR 识别

    • 工具名:ocr_image
    • 参数:file_bytes (bytes) - 图片的二进制数据
    • 返回:识别的文本内容

示例代码

python 复制代码
# 示例:使用 MCP 客户端调用 read_word 工具
from mcp.client import MCPClient

client = MCPClient("http://localhost:8000")

# 读取本地 Word 文档
with open("example.docx", "rb") as f:
    file_bytes = f.read()

result = client.call("read_word", file_bytes=file_bytes)
print(result)

配置说明

Docker 配置

  • Dockerfile:基于 Python 3.11-slim 镜像,安装 tesseract-ocr 和项目依赖
  • docker-compose.yml:定义了 doc-mcp 服务,设置为自动重启

依赖项配置

项目依赖项在 requirements.txt 文件中定义,包括:

  • mcp
  • python-docx
  • pandas
  • openpyxl
  • python-pptx
  • pdfplumber
  • pytesseract
  • pillow

本地 MCP 配置

在本地开发和测试环境中,可以使用以下 MCP 配置信息:

json 复制代码
{
  "mcpServers": {
    "document-reader": {
      "command": "C:\\ProgramData\\anaconda3\\envs\\docmcp\\python.exe",
      "args": [
        "C:\\codes\\doc-mcp-server\\src\\server.py"
      ]
    }
  }
}

此配置适用于本地开发和测试环境,使用 Anaconda 环境中的 Python 解释器运行服务。确保路径引用准确无误,根据实际安装位置进行调整。

常见问题解答

  1. OCR 功能无法使用

    • 确保已安装 tesseract-ocr
    • Docker 部署已自动安装 tesseract-ocr
  2. 服务启动失败

    • 检查 Python 版本是否为 3.11+
    • 检查依赖项是否正确安装
  3. 文档读取失败

    • 确保文档格式正确
    • 检查文件大小是否合理

贡献指南

欢迎提交 Issue 和 Pull Request 来改进这个项目。贡献前请确保:

  1. 代码风格一致
  2. 添加必要的测试
  3. 更新相关文档

维护者

  • willhuo\] - [willhuo@outlook.com](mailto:willhuo@outlook.com)

MIT License

相关推荐
mr_LuoWei20092 小时前
自定义的中文脚本解释器来实现对excel自动化处理(二)
运维·python·自动化
MoSTChillax2 小时前
新手 3 个文件跑通前端 + Flask + MySQL(最小可行 CRUD)
数据库·python·mysql·flask
a187927218312 小时前
【教程】打通本地 IDE AI 与云端 AI 的记忆壁垒:基于 COS 的跨 AI 终端记忆共享与通信系统
人工智能·ai·ai编程·claude·mem·agents·vibe coding
电商API_180079052472 小时前
企业级应用:京东商品详情 API 的高可用架构与多级缓存设计
开发语言·人工智能·python·数据分析·网络爬虫·php
哪 吒2 小时前
国内如何使用Gemini 3.1 Pro?
gpt·ai·chatgpt·gemini
witAI2 小时前
**即梦仿真人剧2025推荐,沉浸式情感交互新体验**据
python·交互
6+h2 小时前
【Java】JDK、JRE、JVM三者最通俗的讲解
java·jvm·python
像风一样的男人@2 小时前
python --html转pdf/pdf分页优化
python·pdf·html
㱘郳2 小时前
Python开发 Django和DRF框架 推荐部分B站视频
开发语言·python·django