如何将NotebookLM PDF版PPT转为可编辑版本PPT

如何将NotebookLM PDF版PPT转为可编辑版本PPT

NotebookLM 的输出为不可编辑的PDF格式,本文致力于将其变为可编辑ppt格式。但由于转换过程基于OCR,生成PPT时最好要求白色背景 ,且输出仅能保留每页PPT的内容,会损失其格式,只能保留每页PPT上的文字和图表 。因此,该文,更加适用于采用NotebookLM 生成多份PPT,选择需要的内容再手动排版。如果希望能完整输出一模一样的可编辑PPT, 请忽略该文。

Step1:NotebookLM生产所需内容的ppt

Step2:paddleocr在线将ppt转为md

网址:https://aistudio.baidu.com/paddleocr/task导出识别结果为markdown。

注:https://github.com/hiroi-sora/Umi-OCR是paddleocr的本地包装。

Step3:Vscode Marp插件+LibreOffice 25.8转为可编辑PPT

(1)下述代码将md转为Marp插件PPT模式

python 复制代码
import os

def process_marp_markdown(input_file, output_file=None):
    """
    处理 Markdown 文件:添加 Marp 头部,并将 'NotebookLM' 替换为分页符
    """
    
    # 1. 定义要插入的 Marp 头部信息
    marp_header = """---
marp: true
theme: default
---

"""

    # 如果没有指定输出文件名,默认在原文件名后加 _marp
    if output_file is None:
        filename, ext = os.path.splitext(input_file)
        output_file = f"{filename}_marp{ext}"

    try:
        # 2. 读取原始 MD 文件
        with open(input_file, 'r', encoding='utf-8') as f:
            content = f.read()

        # 3. 核心逻辑:替换关键词为分页符
        # 注意:我们在 --- 前后都加了 \n\n,确保 Markdown 语法正确识别为分页
        processed_content = content.replace("NotebookLM", "\n\n---\n\n")

        # 4. 拼接头部 + 处理后的内容,并写入新文件
        final_content = marp_header + processed_content

        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(final_content)

        print(f"✅ 处理成功!")
        print(f"📂 输入文件: {input_file}")
        print(f"📄 输出文件: {output_file}")
    except FileNotFoundError:
        print(f"❌ 错误: 找不到文件 '{input_file}',请检查路径。")
    except Exception as e:
        print(f"❌ 发生未知错误: {e}")

if __name__ == "__main__":
    INPUT_FILE = "Multimodal_Fusion_Stroke_Prediction.pdf_by_PaddleOCR_raw.md"  
    process_marp_markdown(INPUT_FILE)

(2)导出为可编辑PPT输出

前置环境:LibreOffice 25.8安装 https://blog.csdn.net/xc_zhou/article/details/137695479

导出为可编辑PPT输出

相关推荐
weixin_6681 天前
OCR 模型深度对比分析报告 - AI分析
人工智能·ocr
weixin_408099671 天前
【完整教程】天诺脚本如何调用 OCR 文字识别 API?自动识别屏幕文字实战(附代码)
前端·人工智能·后端·ocr·api·天诺脚本·自动识别文字脚本
guslegend1 天前
第6节:OCR文本错漏频发?结合LLM纠错,让图像文本也能精确使用
人工智能·大模型·ocr·rag
weixin_408099672 天前
OCR 识别率提升实战:模糊 / 倾斜 / 反光图片全套优化方案(附 Python / Java / PHP 代码)
图像处理·人工智能·后端·python·ocr·api·抠图
weixin_408099672 天前
【实战教程】懒人精灵如何实现 OCR 文字识别?接口调用完整指南(附可运行示例)
java·前端·人工智能·后端·ocr·api·懒人精灵
蓦然乍醒2 天前
零成本实现文档智能:本地化 OCR 提取与 AI 处理全流程实战
人工智能·ocr
P-surp2 天前
tesseract ocr 文字识别
ocr
AI人工智能+2 天前
药品经营许可证识别技术:通过图像预处理、目标检测、序列识别和版面分析,实现对药品经营许可证关键信息的高精度提取
深度学习·计算机视觉·ocr·药品经营许可证识别
weixin_408099672 天前
【保姆级教程】易语言调用 OCR 文字识别 API(从0到1完整实战 + 示例源码)
图像处理·人工智能·后端·ocr·api·文字识别·易语言
weixin_408099672 天前
【保姆级教程】按键精灵调用 OCR 文字识别 API(从0到1完整实战 + 可运行脚本)
java·前端·人工智能·后端·ocr·api·按键精灵