如何将NotebookLM PDF版PPT转为可编辑版本PPT

如何将NotebookLM PDF版PPT转为可编辑版本PPT

NotebookLM 的输出为不可编辑的PDF格式,本文致力于将其变为可编辑ppt格式。但由于转换过程基于OCR,生成PPT时最好要求白色背景 ,且输出仅能保留每页PPT的内容,会损失其格式,只能保留每页PPT上的文字和图表 。因此,该文,更加适用于采用NotebookLM 生成多份PPT,选择需要的内容再手动排版。如果希望能完整输出一模一样的可编辑PPT, 请忽略该文。

Step1:NotebookLM生产所需内容的ppt

Step2:paddleocr在线将ppt转为md

网址:https://aistudio.baidu.com/paddleocr/task导出识别结果为markdown。

注:https://github.com/hiroi-sora/Umi-OCR是paddleocr的本地包装。

Step3:Vscode Marp插件+LibreOffice 25.8转为可编辑PPT

(1)下述代码将md转为Marp插件PPT模式

python 复制代码
import os

def process_marp_markdown(input_file, output_file=None):
    """
    处理 Markdown 文件:添加 Marp 头部,并将 'NotebookLM' 替换为分页符
    """
    
    # 1. 定义要插入的 Marp 头部信息
    marp_header = """---
marp: true
theme: default
---

"""

    # 如果没有指定输出文件名,默认在原文件名后加 _marp
    if output_file is None:
        filename, ext = os.path.splitext(input_file)
        output_file = f"{filename}_marp{ext}"

    try:
        # 2. 读取原始 MD 文件
        with open(input_file, 'r', encoding='utf-8') as f:
            content = f.read()

        # 3. 核心逻辑:替换关键词为分页符
        # 注意:我们在 --- 前后都加了 \n\n,确保 Markdown 语法正确识别为分页
        processed_content = content.replace("NotebookLM", "\n\n---\n\n")

        # 4. 拼接头部 + 处理后的内容,并写入新文件
        final_content = marp_header + processed_content

        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(final_content)

        print(f"✅ 处理成功!")
        print(f"📂 输入文件: {input_file}")
        print(f"📄 输出文件: {output_file}")
    except FileNotFoundError:
        print(f"❌ 错误: 找不到文件 '{input_file}',请检查路径。")
    except Exception as e:
        print(f"❌ 发生未知错误: {e}")

if __name__ == "__main__":
    INPUT_FILE = "Multimodal_Fusion_Stroke_Prediction.pdf_by_PaddleOCR_raw.md"  
    process_marp_markdown(INPUT_FILE)

(2)导出为可编辑PPT输出

前置环境:LibreOffice 25.8安装 https://blog.csdn.net/xc_zhou/article/details/137695479

导出为可编辑PPT输出

相关推荐
Sour4 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
旗讯数字4 天前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
XTIOT6664 天前
多形态护照 OCR 读取器传输机制、识别算法与行业落地技术对比
大数据·人工智能·嵌入式硬件·物联网·ocr
天天代码码天天4 天前
用 TensorRT 加速 PP-OCR:一套 C++ DLL + C# 调用的高性能 OCR 推理方案
c++·c#·ocr
2401_885665195 天前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
东集Seuic5 天前
食品标签新规 GB 7718-2025 倒计时:产线“首件检验”如何用东集小码哥CRUISE Ge2-M跑通 OCR 智能核对?
大数据·人工智能·ocr
小鹏linux5 天前
鸿蒙PC迁移:Tesseract OCR C++ 三方库鸿蒙适配全记录
c++·ocr·harmonyos
开开心心就好5 天前
自动生成小学数学题库支持导出Word
人工智能·安全·leetcode·贪心算法·ocr·音视频·语音识别
FL16238631296 天前
基于C#winform使用纯opencv部署ppocrv5和ppocrv6的onnx模型进行OCR文件检测识别
opencv·c#·ocr
AI人工智能+6 天前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取