如何把pdf的内容转化成结构化数据进行存储到mysql数据库

‌文本标准化处理‌

pythonCopy Code

import re cleaned_data = [re.sub(r'\s+', ' ', text.strip()) for text in raw_texts]
‌关键字段提取 ‌

使用正则表达式或NLP工具（如spaCy）提取结构化字段：

pythonCopy Code

date_pattern = r'\d{4}-\d{2}-\d{2}' dates = re.findall(date_pattern, text)
‌JSON/CSV格式转换 ‌

将结构化数据转换为数据库兼容格式：

pythonCopy Code

import json structured_data = json.dumps({"content": cleaned_data, "metadata": {...}})

‌表结构定义‌

CREATE TABLE pdf_data ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), content LONGTEXT, structured_json JSON, file_hash CHAR(64) UNIQUE, created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP );
‌Python写入操作‌

import mysql.connector conn = mysql.connector.connect(host='localhost', user='root', database='pdf_db') cursor = conn.cursor() cursor.execute("INSERT INTO pdf_data (content, structured_json) VALUES (%s, %s)", (cleaned_text, structured_data)) conn.commit()

‌分页存储设计 ‌

对大型文档按页拆分存储，添加page_number字段实现精准检索‌34。
‌文件指纹校验 ‌

通过SHA256哈希值避免重复存储：

import hashlib file_hash = hashlib.sha256(pdf_content).hexdigest()
‌混合存储策略 ‌

将原始PDF以BLOB存储至专用表，结构化数据关联主表实现快速查询‌28。

‌编码兼容性 ‌

确保数据库使用utf8mb4字符集支持特殊符号‌18。
‌性能调优 ‌

批量插入时使用executemany()提升写入效率，建议每批次500-1000条‌8。
‌错误处理 ‌

添加PDF解析异常捕获机制：

try: text = page.extract_text() except pdfplumber.PDFSyntaxError: logging.error("Corrupted PDF page detected")

以上方案可根据实际业务需求选择全文本存储、关键字段提取或混合模式实现PDF数据的结构化入库‌