PDF 转 Word/Excel 全链路实战：Next.js + 阿里云文档智能

摘要

PDF 转 Word / Excel 是办公场景里最高频的需求之一，但「能转」和「版式不乱」往往差很远：纯文本抽取会丢表格，本地库对扫描件乏力，商业软件又贵又绑客户端。本文先讲 PDF→Office 的技术原理与三类实现路线 ，再拆解我在 工具库 Tools Ku 上的落地方式：Next.js 静态前端 + Node 代理 + 阿里云文档智能（DocMind）异步任务 + 轮询下载 ，同一套组件同时支持 PDF 转 Word（.docx） 与 PDF 转 Excel（.xlsx） 。文末附 免费在线体验链接，无需安装。

在线体验（免注册）

站点首页：https://www.toolsku.com/zh-CN

PDF 转 Word：https://www.toolsku.com/zh-CN/pdf/to-word

PDF 转 Excel：https://www.toolsku.com/zh-CN/pdf/to-excel

一、为什么这件事「看起来简单，做起来很难」？

常见痛点：

场景	用户期望	实际难点
合同 / 报告 PDF	段落、标题层级可编辑	PDF 是「版面描述」，不是流式文档
财务报表、对账单	表格进 Excel 可算	合并单元格、无边框表、嵌套表
扫描件 / 拍照 PDF	能 OCR 再排版	需 OCR + 版面分析 + 重建 Office 结构
在线工具	打开即用、进度可见	浏览器不能直连云 API（密钥、CORS、大包体）

核心结论：转换 = 理解版式 + 重建目标格式，而不只是「把字抠出来」。

二、PDF 转 Word/Excel 在技术上分几步？

可以抽象成四阶段（与 PaddleOCR PP-Structure、商业 DocMind 等产品思路一致）：
数字版
扫描版
PDF 输入
数字版 or 扫描版?
文本/路径/字体解析
OCR 文字识别
版面分析
结构重建
DOCX Word
XLSX Excel

输入解析：区分「可选中文本的 PDF」与「整页是位图」的扫描 PDF。
版面分析（Layout Analysis）：检测标题、段落、表格、图片等区域。
结构映射：Word 侧重段落/样式；Excel 侧重表格网格与单元格。
导出：生成 OOXML（.docx / .xlsx）。

转 Word 更关注：段落流、标题层级、图文混排。
转 Excel 更关注：表格线框、单元格合并、表头区域------所以同一 PDF，表格为主时应优先走 Excel 通道。

三、主流实现路线对比（怎么选型？）

方案	代表	优点	缺点	适用
A. 纯本地库	pdf2docx、PyMuPDF + python-docx	免费、可离线、代码少	扫描件弱；复杂版式易乱；Excel 表格弱	原型、数字版简单 PDF
B. OCR + 版面开源栈	PaddleOCR PP-Structure	扫描件强、可自部署	运维/GPU、工程量大	私有化、大批量定制
C. 云文档智能 API	阿里云 DocMind	版式/表格成熟、按量付费、免运维	需上传文件；有合规考量	在线工具、SaaS、快速上线

我在 Tools Ku 选择的是 C + 自研轻量代理 ：静态站点无法安全持有 AccessKey，因此用 独立 Node 服务 / 函数计算 转发 API，前端只调自己的 /api/docmind/*。

四、整体架构（生产可复用）

OSS 结果文件阿里云 DocMind DocMind 代理(FC/Node) Next.js 静态页用户浏览器 OSS 结果文件阿里云 DocMind DocMind 代理(FC/Node) Next.js 静态页用户浏览器 loop $每 10s，最多 30 分钟$ 选择 PDF，点击转换 POST multipart /api/docmind/submit SubmitConvertPdfToWord/Excel JobAdvance jobId { jobId } GET /api/docmind/result?id= GetDocumentConvertResult processing / success + 下载 URL completed + https 下载链下载 .docx / .xlsx

设计要点：

静态导出 ：站点 output: export，不在 Next 里跑服务端密钥。
代理层统一两种任务 ：pdf-to-word / pdf-to-excel 共用提交与轮询接口。
异步任务 + 轮询：提交可能较慢，符合云厂商「先交任务再查结果」模式。
HTTPS 修正 ：OSS 偶发 http 链接，前端/代理统一升级为 https，避免混合内容被浏览器拦截。
限制：单次 1 个 PDF、≤10MB（与代理环境变量一致）。

五、前端：一个组件搞定 Word / Excel

页面极薄，只传 job 与输出扩展名：

tsx 复制代码

// PdfToWordClient.tsx --- 与 Excel 页仅 job/outputExt 不同
<DocmindConvertClient
  job="pdf-to-word"
  accept="application/pdf"
  outputExt="docx"
/>

核心流程在 DocmindConvertClient：

校验：仅 1 个文件、≤10MB
submitDocmindJob(job, file) → 拿到 jobId
pollDocmindResult(jobId)：默认 10 秒间隔、最多 180 次（约 30 分钟）
成功后展示下载列表

提交与轮询客户端（节选）：

typescript 复制代码

export async function submitDocmindJob(job: DocmindJobType, file: File) {
  const form = new FormData();
  form.append("job", job);
  form.append("file", file, file.name);
  const res = await fetch(`${getDocmindApiBase()}/api/docmind/submit`, {
    method: "POST",
    body: form,
  });
  // 解析 jobId ...
}

export async function pollDocmindResult(jobId: string, options?) {
  const intervalMs = options?.intervalMs ?? 10_000;
  const maxAttempts = options?.maxAttempts ?? 180;
  for (let i = 0; i < maxAttempts; i++) {
    const body = await fetchDocmindResult(jobId);
    if (outcome.state !== "processing") return outcome;
    await new Promise((r) => setTimeout(r, intervalMs));
  }
  return { state: "failed", message: "转换超时，请稍后重试" };
}

环境变量：

bash 复制代码

NEXT_PUBLIC_DOCMIND_API_URL=https://你的函数HTTP触发器域名

本地开发默认 http://127.0.0.1:4001，需另起 npm run docmind:server。

六、后端代理：Busboy 收文件 + DocMind SDK

JOB_HANDLERS 把两种任务映射到不同 SDK 方法：

javascript 复制代码

const JOB_HANDLERS = {
  "pdf-to-word": {
    submit: (c, req, runtime) => c.submitConvertPdfToWordJobAdvance(req, runtime),
    Request: SubmitConvertPdfToWordJobAdvanceRequest,
    accept: [".pdf"],
  },
  "pdf-to-excel": {
    submit: (c, req, runtime) => c.submitConvertPdfToExcelJobAdvance(req, runtime),
    Request: SubmitConvertPdfToExcelJobAdvanceRequest,
    accept: [".pdf"],
  },
};

提交流程（节选）：

multipart 解析字段 job + 文件 file
构造 *JobAdvanceRequest，fileUrlObject 用内存流传入
option: "basic"（可按业务升级高级版式选项）
返回 jobId

查询结果：

javascript 复制代码

const request = new GetDocumentConvertResultRequest({ id });
const response = await api.getDocumentConvertResult(request, runtime);
// normalize: completed、status、data[].url

对外仅三个路由：

方法	路径	作用
GET	`/health`	探活、是否配置 AK
POST	`/api/docmind/submit`	上传并创建任务
GET	`/api/docmind/result?id=`	查询任务状态与下载地址

CORS ：DOC_MIND_CORS_ORIGIN 配置站点域名（如 https://www.toolsku.com），避免静态页跨域被拒。

七、部署：为什么用阿里云函数计算？

README 中的推荐路径：

RAM：部署账号需 FC 权限；执行角色写日志；DocMind 用子账号 AK。
server/fc 下 s deploy 部署 Web 函数（internetAccess: true）。
构建前端时写入 NEXT_PUBLIC_DOCMIND_API_URL=函数 HTTP 触发器地址。
submit 超时建议 120s；大包体未来可扩展为 OSS 直传 + URL 提交（当前同步体约 32MB 上限）。

这样 CDN 静态资源 与 转换 API 分离：流量高峰时只扩函数，不重建整站。

八、产品侧约束（写进隐私说明很重要）

在线版与本地「pdf-lib 合并」类工具不同，PDF 转 Word/Excel 必须上传云端：

单次 1 个 PDF，≤10MB
下载链接通常 约 24 小时有效，请尽快保存
勿上传机密/个人敏感信息
扫描件可尝试，但低清晰度、手写、复杂多栏仍需人工微调
表格为主 → 优先 转 Excel ；正文为主 → 转 Word

这些说明在前端有醒目的 DocmindPrivacyNote，既合规也降低用户预期落差。

九、和「40 行 pdf2docx」方案怎么配合？

不是二选一，而是分层：

需求	建议
学习 / 离线小工具	Python `pdf2docx` + PyInstaller
扫描件、复杂合同	DocMind / PP-Structure 类
公开免费在线站	静态前端 + API 代理 + 异步轮询（本文架构）

若你已有 pdf2docx 脚本，可把其作为 降级通道；主站高保真走云端，并在 UI 上标注「增强模式需上传」。

十、常见问题 FAQ

Q1：能不能完全浏览器本地转？

高保真版式识别算力与模型不在浏览器里 realistically 跑满。纯前端适合简单提取文本；要表格/版式，仍需云端或本地重型栈。

Q2：转换失败怎么排查？

1）看 /health 是否 docmindConfigured；2）AK/endpoint 区域是否 cn-hangzhou；3）CORS 是否包含前端域名；4）文件是否超 10MB。

Q3：Word 和 Excel 该选哪个？

以表格数据为主（报表、账单）→ Excel；以段落、合同条款为主 → Word。

Q4：安全吗？

密钥只在代理/函数环境变量；前端永不接触 AccessKey。业务上仍需告知用户「文件会出网处理」。

十一、总结

原理：版式理解 + 结构重建，扫描件还要 OCR。
选型：快速上线用云文档智能；深度定制用 Paddle 系；简单数字 PDF 可用 pdf2docx。
工程：静态站 + 专用代理 + 异步任务轮询，是线上 PDF 工具的常见成熟形态。
体验：统一组件、明确限额与隐私提示，比堆功能更能留住用户。

如果你只想 立刻转一份合同或报表，直接用下面链接即可（免注册）：

工具库首页 ：https://www.toolsku.com/zh-CN
PDF 转 Word ：https://www.toolsku.com/zh-CN/pdf/to-word
PDF 转 Excel ：https://www.toolsku.com/zh-CN/pdf/to-excel

英文站把路径中的 zh-CN 换成 en 即可，例如：https://www.toolsku.com/en/pdf/to-word

参考资料

阿里云文档智能 DocMind API（PDF 转 Word/Excel 异步任务）
pdf2docx 开源库（本地数字 PDF 方案）
PaddleOCR PP-StructureV2（开源版面分析 + 恢复）

原创声明 ：文中架构与代码思路来自 Tools Ku（toolsku.com）开源前端与 server/lib/docmind-app.mjs 实现，转载请注明出处并附本站链接。