Python办公神器:教你批量提取PPT中的文字

Python办公神器:教你批量提取PPT中的文字

介绍

  • 本文将介绍如何使用pptxdocx库来将PPT中的文字提取到Word中。
  • 本文假设你已经安装了python和这两个库。
  • 本文的场景是:你需要将一个PPT文件中的所有文字内容提取出来,并按照原来的格式和顺序写入到一个Word文档中。

准备工作

  • 首先,我们需要导入pptxdocx库,以及其他一些辅助库,如下:
python 复制代码
import pptx
from docx import Document
from docx.shared import Pt
import os
  • 这些库的作用是:

    • pptx库可以让我们读取和修改PPT文件的内容和格式。
    • docx库可以让我们创建和编辑Word文档的内容和格式。
    • Pt是一个辅助函数,可以将字号转换为磅(point)单位,方便我们设置字体大小。
    • os库可以让我们操作文件系统,例如创建目录,保存文件等。
  • 然后,我们需要定义一些常量,如文件名,字体,颜色等,如下:

python 复制代码
# 文件名
PPT_FILE = 'source.pptx'
WORD_FILE = 'output.docx'

# 字体
FONT_NAME = '宋体'
FONT_SIZE = 12
  • 这些常量的作用是:

    • PPT_FILE是我们要提取文字的PPT文件的名称,你可以根据你自己的文件名进行修改。
    • WORD_FILE是我们要写入文字的Word文档的名称,你可以根据你自己的喜好进行修改。
    • FONT_NAME是我们要使用的字体的名称,你可以根据你自己的喜好进行修改。
    • FONT_SIZE是我们要使用的字体的大小,你可以根据你自己的喜好进行修改。
  • 接下来,我们需要加载PPT文件和创建Word文档对象,如下:

python 复制代码
# 加载PPT文件
prs = pptx.Presentation(PPT_FILE)

# 创建Word文档对象
doc = Document()
  • 这些代码的作用是:
    • prs = pptx.Presentation(PPT_FILE)是用pptx库的Presentation类来创建一个PPT文件的对象,我们可以通过这个对象来访问和修改PPT文件的内容和格式。
    • doc = Document()是用docx库的Document类来创建一个空白的Word文档的对象,我们可以通过这个对象来添加和编辑Word文档的内容和格式。

提取PPT文字

  • 首先,我们需要遍历PPT文件中的每一个幻灯片,如下:
python 复制代码
# 遍历PPT文件中的每一个幻灯片
for slide in prs.slides:
    # 在此处添加代码
  • 这段代码的作用是:

    • for slide in prs.slides:是用一个for循环来遍历PPT文件对象prs中的每一个幻灯片对象slide,我们可以通过这个对象来访问和修改幻灯片的内容和格式。
  • 然后,我们需要遍历每一个幻灯片中的每一个形状,判断是否是包含文本的形状,如果是,就获取其内部的文本框对象,如下:

python 复制代码
# 遍历每一个幻灯片中的每一个形状
for shape in slide.shapes:
    # 判断是否是包含文本的形状
    if shape.has_text_frame:
        # 获取其内部的文本框对象
        text_frame = shape.text_frame
        # 在此处添加代码
  • 最后,我们需要遍历每一个文本框中的每一个段落,获取其文本内容和格式,然后将其写入到Word文档中,如下:
python 复制代码
# 遍历每一个文本框中的每一个段落
for paragraph in text_frame.paragraphs:
    # 获取其文本内容和格式
    text = paragraph.text
    font = paragraph.font
    # 将其写入到Word文档中
    doc.add_paragraph(text, style=font)

保存Word文档

  • 最后,我们需要保存生成的Word文档,如下:
python 复制代码
# 保存生成的Word文档
doc.save(WORD_FILE)
  • 这段代码的作用是:
    • doc.save(WORD_FILE)是用Word文档对象docsave方法来保存生成的Word文档,参数WORD_FILE是我们定义的Word文档的名称,你可以在你的电脑上找到这个文件。

总结

  • 本文介绍了如何使用python-pptxpython-docx库来将PPT中的文字提取到Word中。
  • 本文通过一个实际的场景,演示了如何遍历PPT文件中的每一个幻灯片,每一个形状,每一个文本框,每一个段落,获取其文本内容和格式,然后将其写入到Word文档中。
相关推荐
倾颜4 分钟前
我是怎么把单 Tool Calling 升级成多 Tool Runtime 的
前端·后端·langchain
Counter-Strike大牛9 分钟前
SpringBoot项目调用数据库函数报错Result consisted of more than one row
数据库·spring boot·后端
清汤饺子10 分钟前
Superpowers:给 AI 编程 Agent 装上"工程化超能力"
前端·javascript·后端
念何架构之路20 分钟前
Go语言表达式的求值顺序
开发语言·后端·golang
zihao_tom22 分钟前
Springboot-配置文件中敏感信息的加密:三种加密保护方法比较
java·spring boot·后端
.生产的驴36 分钟前
1Panel实战|SpringColud微服务部署生产环境一键部署Docker+Nacos+MySQL 数据定时备份 控制台 安全高效易维护
服务器·后端·mysql·spring cloud·docker·微服务·信息可视化
金銀銅鐵1 小时前
[Java] 从 class 文件看 EasyMock 对 @Mock 注解的处理
后端·单元测试
小谢小哥1 小时前
06-Java语言核心-JVM原理-JVM内存区域详解
后端
呆子也有梦1 小时前
redis 的延时双删、双重检查锁定在游戏服务端的使用(伪代码为C#)
redis·后端·游戏·缓存·c#
烛之武2 小时前
SpringBoot 实战篇
java·spring boot·后端