Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取

关于Office系列文件文字内容的提取

本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。

一、提取Word及WPS文档的文字内容。

支持以下文件格式:

文档类型 文件格式 支持与否
word .doc、.docx、.wps、.rtf
ppt .ppt、.pptx、.pps
pdf .pdf
ofd .ofd
excel .xls、.xlsx、.et

请求地址:https://vw.usdoc.cn/

请求方式:GET

请求参数:

字段名称 字段类型 必填参数 说明
src string 文件地址,即需要提取的文档地址。如:https://usdoc.cn/vw/文件模板.docx
words .string words=all 提取全部内容 words=pag 以分页的形式对内容分页提取

公共响应参数:

字段名称 类型 描述
code numbe code请求码,200表示正常
words string 错误描述信息,用来帮助理解和解决发生的错误。
data object 响应参数

响应参数:

字段名称 字段类型 描述 示例
fileName string 文件名称 文件模板.docx
fileSize numbe 文件大小,单位为字节 words=all 提取全部内容 words=pag 以分页的形式对内容分页提取
pageCount numbe 文档页数,文件有多少页内容 3
content string 文档内容 关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:...(usdoc在线预览)

代码示例一:

提取全部内容,不分页返回

javascript 复制代码
//请求接口地址:https://vw.usdoc.cn/
//参数: words=all
//完整的转换地址如下,可以将如下地址放在浏览器请求

https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

javascript 复制代码
{
    "code": 200,
    "msg": "success",
    "data": {
        "fileName": "文件模板.docx",
        "fileSize": 128967,
        "pageCount": 3,
        "content": [
            "关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:......(usdoc在线预览)\r文件正文。其致一也。后之览者,亦将有感于斯文。"
        ]
    }
}

代码示例二:

以分页的方式提取全部内容,分页返回

javascript 复制代码
//请求接口地址:https://vw.usdoc.cn/
//参数: words=pag
//完整的转换地址如下,可以将如下地址放在浏览器请求

https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

javascript 复制代码
{
    "code": 200,
    "msg": "Success",
    "data": {
        "fileName": "文件模板.docx",
        "fileSize": 128967,
        "pageCount": 3,
        "content": [
            "关于国庆节放假安排的通知(usdoc在线预览)文件正文。...10月1日至7日放假调休,......三级标题(空两格)\r(1)四级标题(空两格)",
            "当否,请批示。\r附件:1、\r          2、\r\r\rusdoc文档在线预览服务\r2022年10月10日\r\r\r\r\r\r(联系人:×××,联系电话:××××)",
            "兰亭集序\r\r永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊......,亦将有感于斯文"
        ]
    }
}
相关推荐
会跑的葫芦怪7 小时前
若依Vue 项目多子路径配置
前端·javascript·vue.js
xiaoqi9227 小时前
React Native鸿蒙跨平台如何进行狗狗领养中心,实现基于唯一标识的事件透传方式是移动端列表开发的通用规范
javascript·react native·react.js·ecmascript·harmonyos
jin1233228 小时前
React Native鸿蒙跨平台剧本杀组队消息与快捷入口组件,包含消息列表展示、快捷入口管理、快捷操作触发和消息详情预览四大核心功能
javascript·react native·react.js·ecmascript·harmonyos
烬头88219 小时前
React Native鸿蒙跨平台实现二维码联系人APP(QRCodeContactApp)
javascript·react native·react.js·ecmascript·harmonyos
pas1369 小时前
40-mini-vue 实现三种联合类型
前端·javascript·vue.js
2601_9498333910 小时前
flutter_for_openharmony口腔护理app实战+预约管理实现
android·javascript·flutter
军军君0111 小时前
Three.js基础功能学习十三:太阳系实例上
前端·javascript·vue.js·学习·3d·前端框架·three
xiaoqi92212 小时前
React Native鸿蒙跨平台如何实现分类页面组件通过searchQuery状态变量管理搜索输入,实现了分类的实时过滤功能
javascript·react native·react.js·ecmascript·harmonyos
qq_1777673712 小时前
React Native鸿蒙跨平台实现应用介绍页,实现了应用信息卡片展示、特色功能网格布局、权限/联系信息陈列、评分展示、模态框详情交互等通用场景
javascript·react native·react.js·ecmascript·交互·harmonyos
2603_9494621012 小时前
Flutter for OpenHarmony社团管理App实战:预算管理实现
android·javascript·flutter