利用Python提取将Excel/PDF文件数据

使用Python来创建一个接口,用于接收Excel文件资源链接,下载文件并执行指定的操作,然后返回处理后的数据。以下是一个基本的示例,展示如何使用Flask来创建这样的接口。请注意,这是一个简化的示例,您可能需要根据实际需求扩展和完善代码。

首先,确保安装Flask:

复制代码
pip install Flask

然后,创建一个Python脚本,比如excel_api.py

复制代码
import os
from flask import Flask, request, jsonify
import requests
import openpyxl

app = Flask(__name)

@app.route("/process_excel", methods=["POST"])
def process_excel():
    try:
        # 获取POST请求中的JSON数据
        data = request.get_json()

        # 从JSON数据中获取Excel文件链接
        excel_url = data.get("excel_url")

        # 下载Excel文件
        excel_response = requests.get(excel_url)
        with open("temp.xlsx", "wb") as f:
            f.write(excel_response.content)

        # 打开Excel文件
        wb = openpyxl.load_workbook("temp.xlsx")

        # 用于存储处理后的数据
        processed_data = {}

        # 处理每个sheet
        for sheet_name in wb.sheetnames:
            sheet = wb[sheet_name]
            sheet_data = []

            # 读取每个单元格的数据
            for row in sheet.iter_rows(values_only=True):
                sheet_data.append(row)

            processed_data[sheet_name] = sheet_data

        # 处理完成后,可以根据需要将数据存储到指定路径

        # 返回处理后的数据
        return jsonify(processed_data)

    except Exception as e:
        return jsonify({"error": str(e)})

if __name__ == "__main__":
    app.run(debug=True)

提取各sheet内单元格(部分为合并单元格)内字段数据

python 复制代码
import openpyxl

def extract_data_from_sheet(sheet):
    data = []
    for row in sheet.iter_rows(values_only=True):
        row_data = []
        for cell in row:
            if cell.data_type == 's':  # 处理合并单元格
                value = sheet.cell(row=cell.row, column=cell.column)._value
            else:
                value = cell.value
            row_data.append(value)
        data.append(row_data)
    return data

# 打开Excel文件
wb = openpyxl.load_workbook("your_excel_file.xlsx")

# 处理每个sheet
for sheet_name in wb.sheetnames:
    sheet = wb[sheet_name]
    sheet_data = extract_data_from_sheet(sheet)
    
    # 在这里,sheet_data 包含了从当前sheet中提取的数据
    print(f"Data from {sheet_name}:")
    for row in sheet_data:
        print(row)
相关推荐
浒畔居36 分钟前
机器学习模型部署:将模型转化为Web API
jvm·数据库·python
抠头专注python环境配置39 分钟前
基于Pytorch ResNet50 的珍稀野生动物识别系统(Python源码 + PyQt5 + 数据集)
pytorch·python
百***787539 分钟前
Kimi K2.5开源模型实战指南:核心能力拆解+一步API接入(Python版,避坑全覆盖)
python·microsoft·开源
喵手41 分钟前
Python爬虫实战:针对天文历法网站(以 TimeandDate 或类似的静态历法页为例),构建高精度二十四节气天文数据采集器(附xlsx导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集天文历法网站数据·构建二十四节气天文数据
zhaotiannuo_19981 小时前
Python之2.7.9-3.9.1-3.14.2共存
开发语言·python
Keep_Trying_Go1 小时前
基于GAN的文生图算法详解ControlGAN(Controllable Text-to-Image Generation)
人工智能·python·深度学习·神经网络·机器学习·生成对抗网络·文生图
LostSpeed2 小时前
openpnp - python2.7 script - 中文显示乱码,只能显示英文
python·openpnp
hhy_smile2 小时前
Class in Python
java·前端·python
whale fall2 小时前
celery -A tool.src.main worker --loglevel=info --queues=worker1_queue & 什么意思
python·学习·apache
naruto_lnq2 小时前
使用Fabric自动化你的部署流程
jvm·数据库·python