Python 自动化办公:Excel 数据处理的“秘密武器”

引言

在日常的 IT 办公场景里,Excel 是数据处理与分析的 "常胜将军"。无论是财务人员整理账目、销售团队统计业绩,还是运营人员分析用户数据,Excel 都发挥着关键作用。但面对海量数据,手动操作 Excel 不仅效率低下,还容易出错。Python 凭借其强大的库支持,能轻松实现 Excel 自动化处理,让繁琐的工作变得简单高效。本文将结合实际案例,带大家走进 Python 自动化操作 Excel 的世界,掌握实用的代码技巧。


1 常用 Python 库介绍

1.1 openpyxl

openpyxl 是一个用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件的 Python 库。它功能丰富,支持对单元格的读写、格式设置、图表操作等,适合处理较为复杂的Excel文件。

1.2 pandas

pandas 是数据分析领域的明星库,它提供了高效的数据结构和数据分析工具。虽然它本身不直接操作 Excel 文件格式,但通过 to_excel() 和 read_excel() 方法,可以方便地与 Excel 进行数据交互,常用于数据的快速读写和初步处理。

1.3 xlrd/xlwt(较老但仍有使用场景)

xlrd 用于读取 Excel 文件(支持 .xls 格式),xlwt 用于写入 Excel 文件(同样支持 .xls 格式)。由于它们对 .xlsx 格式支持有限,在新项目中使用频率逐渐降低,但在处理老旧格式的 Excel 文件时仍有一定价值。


2 实战案例:销售数据自动化处理

2.1 案例背景

假设我们有一份某公司某月的销售数据 Excel 文件(sales_data.xlsx),包含销售日期、产品名称、销售数量、销售单价等信息。我们的任务是自动化完成以下工作:

  1. 读取 Excel 文件中的数据。
  2. 计算每笔订单的销售金额(销售数量×销售单价)。
  3. 统计每种产品的总销售金额。
  4. 将处理后的数据保存到新的 Excel 文件中,并对总销售金额进行降序排序。

2.2 代码实现

1. 准备工作

首先,确保已安装所需库,可通过以下命令安装:

bash 复制代码
pip install openpyxl pandas

2. 完整代码

bash 复制代码
import pandas as pd
from openpyxl import Workbook, load_workbook
from openpyxl.styles import Font, Alignment

def process_sales_data():
    # 1. 读取Excel文件
    input_file = 'sales_data.xlsx'
    df = pd.read_excel(input_file)

    # 2. 计算每笔订单的销售金额
    df['销售金额'] = df['销售数量'] * df['销售单价']

    # 3. 统计每种产品的总销售金额
    product_sales = df.groupby('产品名称')['销售金额'].sum().reset_index()
    product_sales = product_sales.sort_values(by='销售金额', ascending=False)

    # 4. 将处理后的数据保存到新的Excel文件
    output_file = 'processed_sales_data.xlsx'
    with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
        # 写入原始数据(带计算的销售金额)
        df.to_excel(writer, sheet_name='原始数据', index=False)
        # 写入产品总销售金额统计结果
        product_sales.to_excel(writer, sheet_name='产品统计', index=False)

    # 5. 使用openpyxl对输出的Excel文件进行格式美化(可选)
    wb = load_workbook(output_file)

    # 美化"原始数据"工作表
    ws_raw = wb['原始数据']
    # 设置标题行字体加粗、居中
    for cell in ws_raw[1]:
        cell.font = Font(bold=True)
        cell.alignment = Alignment(horizontal='center')

    # 美化"产品统计"工作表
    ws_stats = wb['产品统计']
    # 设置标题行字体加粗、居中
    for cell in ws_stats[1]:
        cell.font = Font(bold=True)
        cell.alignment = Alignment(horizontal='center')
    # 为总销售金额列添加货币格式(示例,实际可能需要根据Excel版本调整)
    for row in range(2, ws_stats.max_row + 1):
        ws_stats.cell(row=row, column=2).number_format = '"¥"#,##0.00'

    # 保存美化后的文件
    wb.save(output_file)
    print(f"数据处理完成,结果已保存到 {output_file}")

if __name__ == '__main__':
    process_sales_data()

代码解析:

  1. 数据读取:使用 pandas.read_excel() 函数读取 sales_data.xlsx 文件中的数据到 DataFrame 对象 df 中。
  2. 计算销售金额:通过 DataFrame 的列运算,直接在 df 中新增一列"销售金额",其值为"销售数量"与"销售单价"的乘积。
  3. 统计产品总销售金额:利用 groupby() 方法按"产品名称"分组,然后对"销售金额"列求和,并使用 sort_values() 方法按总销售金额降序排序。
  4. 数据写入:使用 pandas.ExcelWriter 将处理后的数据分别写入新 Excel 文件的不同工作表中。
  5. 格式美化:使用 openpyxl 加载生成的 Excel 文件,对工作表进行格式设置,如设置标题行字体加粗、居中,为金额列添加货币格式等,使输出结果更加美观易读。

3 扩展应用场景

3.1 批量处理多个 Excel 文件

假设公司有多个销售分公司的 Excel 数据文件,文件命名格式为分公司名称 _sales_data.xlsx,我们可以编写代码批量处理这些文件,并将结果合并到一个 Excel 文件中。

bash 复制代码
import os
import pandas as pd

def batch_process_sales_files():
    input_folder = 'sales_files'  # 假设所有分公司销售数据文件都在此文件夹中
    output_file = 'all_companies_sales_summary.xlsx'
    all_data = []

    # 遍历文件夹中的所有Excel文件
    for filename in os.listdir(input_folder):
        if filename.endswith('_sales_data.xlsx'):
            company_name = filename.split('_')[0]  # 提取分公司名称
            file_path = os.path.join(input_folder, filename)
            df = pd.read_excel(file_path)
            df['分公司'] = company_name  # 添加分公司列
            all_data.append(df)

    # 合并所有数据
    combined_df = pd.concat(all_data, ignore_index=True)

    # 计算每笔订单销售金额
    combined_df['销售金额'] = combined_df['销售数量'] * combined_df['销售单价']

    # 统计各分公司各产品总销售金额
    company_product_sales = combined_df.groupby(['分公司', '产品名称'])['销售金额'].sum().reset_index()
    company_product_sales = company_product_sales.sort_values(by=['分公司', '销售金额'], ascending=[True, False])

    # 保存结果
    with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
        combined_df.to_excel(writer, sheet_name='原始合并数据', index=False)
        company_product_sales.to_excel(writer, sheet_name='分公司产品统计', index=False)

    print(f"批量处理完成,结果已保存到 {output_file}")

if __name__ == '__main__':
    batch_process_sales_files()

3.2 定时自动生成报表

在办公场景里,日报、周报、月报的生成与分发如同每日打卡,是不可或缺的工作环节。但手动重复操作不仅耗时,还容易因忙碌而遗漏。借助操作系统的定时任务功能与 Python 脚本,我们能让报表在指定时间自动"出炉",并精准送达相关人员手中,大幅提升办公效率。

3.2.1 定时任务工具选择

不同操作系统提供了各具特色的定时任务工具,能无缝衔接 Python 脚本,实现自动化报表生成。

  • Windows:"任务计划程序"是 Windows 系统的内置利器,通过直观的图形界面,可轻松设置脚本的定时运行。
  • Linux/Mac:cron 服务以简洁高效的命令行方式,灵活管理定时任务,满足多样化的定时需求。

3.2.2 典型应用场景:销售日报自动生成与发送

假设公司要求每天早上 9 点,将前一天的销售数据汇总成日报,并发送给销售团队和管理层。下面介绍如何借助 Python 脚本与定时任务工具实现这一需求。

bash 复制代码
import pandas as pd
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.application import MIMEApplication
from datetime import datetime, timedelta

def generate_and_send_daily_report():
    # 1. 获取前一天日期
    yesterday = (datetime.now() - timedelta(days=1)).strftime('%Y-%m-%d')

    # 2. 模拟生成销售数据(实际项目中可连接数据库获取)
    data = {
        '产品名称': ['产品A', '产品B', '产品C'],
        '销售数量': [120, 85, 95],
        '销售单价': [50, 80, 60]
    }
    df = pd.DataFrame(data)
    df['销售金额'] = df['销售数量'] * df['销售单价']

    # 3. 计算总销售额
    total_sales = df['销售金额'].sum()

    # 4. 保存报表到Excel
    report_filename = f'daily_sales_report_{yesterday}.xlsx'
    with pd.ExcelWriter(report_filename, engine='openpyxl') as writer:
        df.to_excel(writer, sheet_name='销售明细', index=False)
        # 添加总销售额到新工作表
        summary_df = pd.DataFrame({'统计项': ['总销售额'], '金额': [total_sales]})
        summary_df.to_excel(writer, sheet_name='统计汇总', index=False)

    # 5. 发送邮件
    send_email(report_filename, yesterday)

def send_email(file_path, report_date):
    # 邮件配置
    sender = '[email protected]'  # 发送者邮箱
    password = 'your_password_or_app_token'  # 邮箱密码或应用专用密码/授权码
    receiver = '[email protected]'  # 接收者邮箱
    smtp_server = 'smtp.example.com'  # SMTP服务器地址(如Gmail为smtp.gmail.com)
    smtp_port = 587  # SMTP服务器端口

    # 创建邮件对象
    msg = MIMEMultipart()
    msg['From'] = sender
    msg['To'] = receiver
    msg['Subject'] = f'{report_date}销售日报'

    # 邮件正文
    body = f"""
    <h2>各位同事:</h2>
    <p>以下是{report_date}的销售日报,请查收。</p>
    <p>附件包含详细的销售明细和统计汇总信息。</p>
    <br>
    <p>销售部</p>
    <p>{datetime.now().strftime('%Y-%m-%d')}</p>
    """
    msg.attach(MIMEText(body, 'html'))

    # 添加附件
    with open(file_path, 'rb') as f:
        part = MIMEApplication(f.read())
        part.add_header('Content-Disposition', 'attachment', filename=file_path)
        msg.attach(part)

    # 发送邮件
    try:
        with smtplib.SMTP(smtp_server, smtp_port) as server:
            server.starttls()  # 启用加密连接
            server.login(sender, password)
            server.send_message(msg)
        print(f"邮件发送成功,报表已发送至 {receiver}")
    except Exception as e:
        print(f"邮件发送失败: {e}")

if __name__ == '__main__':
    generate_and_send_daily_report()

脚本功能解析:

  • 数据生成:模拟生成前一天的销售数据,包括产品名称、销售数量、销售单价,并计算销售金额和总销售额。
  • 报表生成:使用 pandas 将数据保存到 Excel 文件中,创建"销售明细"和"统计汇总"两个工作表,分别展示详细销售数据和总销售额。
  • 邮件发送:通过 smtplib 和 email 库构建并发送邮件,将生成的 Excel 文件作为附件发送给指定人员。

3.2.3 定时任务设置

Windows 系统:

  1. 打开任务计划程序:按下 Win + R 键,输入 taskschd.msc 并回车。
  2. 创建基本任务:在右侧操作面板中点击"创建基本任务"。
  3. 填写基本信息:输入任务名称(如"每日销售日报发送")和描述。
  4. 设置触发器:选择"每天",设置开始时间为 9:00,并选择"每天"重复执行。
  5. 设置操作:选择"启动程序",浏览并选择 Python 解释器路径(如 C:\Python39\python.exe)和脚本路径(如 C:\scripts\generate_and_send_daily_report.py)。
  6. 完成设置:点击"完成"按钮,任务计划程序将每天 9 点自动运行脚本。

Linux/Mac 系统

编辑 crontab 文件:在终端输入 crontab -e 命令。

添加定时任务:在打开的编辑器中添加以下行,设置每天 9 点运行脚本:

bash 复制代码
0 9 * * * /usr/bin/python3 /path/to/generate_and_send_daily_report.py
  • 0 9 * * *:表示每天 9:00 执行任务。
  • /usr/bin/python3:Python 解释器的路径,可通过 which python3 命令查找。
  • /path/to/generate_and_send_daily_report.py:Python 脚本的绝对路径。

保存并退出 :保存文件后,cron 服务将自动加载新的定时任务。

3.2.4 注意事项

  • 邮箱安全:为保障邮箱安全,建议使用应用专用密码或授权码进行 SMTP 登录,而非直接使用邮箱密码。
  • 路径问题:在脚本中使用绝对路径引用文件,避免因工作目录不同而导致文件找不到。
  • 日志记录:在脚本中添加日志记录功能,将脚本的运行情况和错误信息记录到日志文件中,方便排查问题。例如,使用 logging 模块记录日志:
bash 复制代码
import logging

# 配置日志记录
logging.basicConfig(filename='report_generation.log', level=logging.INFO,
                    format='%(asctime)s - %(levelname)s - %(message)s')

def generate_and_send_daily_report():
    try:
        logging.info("开始生成销售日报")
        # 原有代码...
        logging.info("销售日报生成并发送成功")
    except Exception as e:
        logging.error(f"生成销售日报时出错: {e}")

通过以上方法,我们可以轻松实现销售日报的定时自动生成与发送,让办公自动化为我们的工作减负增效。同样的思路也可应用于周报、月报等其他报表的定时生成与分发。

相关推荐
七七知享13 小时前
深入探索Python Pandas:解锁数据分析的无限可能
python·程序人生·程序员·数据挖掘·数据分析·pandas·个人开发
xiaohanbao091 天前
day6 python数据可视化
python·学习·信息可视化·pandas
渣渣盟1 天前
IT社团分析预测项目(pandas、numpy、sklearn)
pandas
liuweidong08021 天前
【Pandas】pandas DataFrame rmul
pandas
闲人编程1 天前
数据分析案例:能源数据分析
python·数据挖掘·数据分析·pandas·能源·数据预处理
liuweidong08022 天前
【Pandas】pandas DataFrame rsub
开发语言·python·pandas
liuweidong08022 天前
【Pandas】pandas DataFrame radd
开发语言·python·pandas
AAA顶置摸鱼3 天前
使用 Pandas 进行多格式数据整合:从 Excel、JSON 到 HTML 的处理实战
json·excel·pandas
liuweidong08023 天前
【Pandas】pandas DataFrame dot
pandas