做过全国级数据采集的朋友,大概率都遇到过这个高频痛点:
按省份 / 城市拆分存储 Excel,爬完几十上百个文件,想快速知道总数据量、每个文件行数、异常空表,手动点开统计根本不现实 ------ 耗时、易错、还没法留档溯源。
最近刚落地一个全国各省业务数据爬虫项目,数据源按地级市独立归档 Excel,爬取完成后第一需求就是:批量统计所有 Excel 的有效数据行数,输出明细 + 汇总报表。
今天就把这套零门槛、高效率、可直接复用的解决方案,连同完整工具代码一起分享,看完就能用,彻底解决多 Excel 批量计数难题。
一、先说说我们遇到的真实场景
项目需求很明确:
- 全国 30 + 省份,每个省份下辖市 / 区独立 Excel 文件
- 格式统一为
.xlsx,每个文件 1 个主数据表,第一行为表头 - 爬取完成后,必须精准统计:
- 每个 Excel 文件的有效数据行数(剔除表头)
- 所有文件总行数汇总
- 自动识别空文件、无法读取的异常文件
- 输出可存档的统计报表,方便对账、验收、汇报
手动操作的坑我们直接帮你踩过:
100 个 Excel 逐个打开看行数,至少半小时起步,还容易数错;文件一多,根本记不住哪个文件多少行,后续核对完全没依据。
高效的解法只有一个:用自动化工具批量处理,10 秒出结果,全程不用手动点开任何文件。
二、这款统计工具,能解决什么问题?
我们打磨的这款Excel 批量行数统计工具,完全适配爬虫归档、多文件数据盘点场景,核心能力拉满:
✅ 全目录扫描:指定文件夹,自动识别所有.xlsx/.xls文件
✅ 精准计数:支持单 / 多 Sheet,可自定义是否剔除表头
✅ 异常兼容:跳过加密文件、损坏文件、空表,不中断运行
✅ 可视化输出:控制台实时打印进度,同步生成 Excel 统计报表
✅ 低门槛使用:Python 环境 + 两行安装命令,零基础也能跑
✅ 业务适配:完美匹配分省、分市、分地区拆分存储的爬虫数据
三、完整工具代码|复制即可运行
1. 环境准备(仅 2 步)
先安装依赖库,打开命令提示符执行:
pip install pandas openpyxl
2. 完整统计工具代码
新建.py文件,复制以下代码,只需要修改文件夹路径就能直接运行:
import os
import pandas as pd
import tkinter as tk
from tkinter import ttk, filedialog, messagebox
import threading
class ExcelCounterApp:
def __init__(self, root):
self.root = root
self.root.title("📊 目录Excel内容条数统计工具")
self.root.geometry("750x550")
self.root.resizable(False, False)
# 变量
self.target_path = tk.StringVar()
self.total_count = 0
# 顶部:路径选择
tk.Label(root, text="目标文件夹:").place(x=20, y=20)
tk.Entry(root, textvariable=self.target_path, width=60).place(x=100, y=20)
tk.Button(root, text="选择文件夹", command=self.select_path, bg="#4CAF50", fg="white").place(x=520, y=15)
# 按钮
self.start_btn = tk.Button(root, text="开始统计", command=self.start_count, bg="#2196F3", fg="white", width=15)
self.start_btn.place(x=20, y=60)
tk.Button(root, text="清空结果", command=self.clear_result, bg="#f44336", fg="white", width=15).place(x=180, y=60)
# 状态
self.status_label = tk.Label(root, text="状态:等待操作", fg="blue")
self.status_label.place(x=350, y=65)
# 表格展示
self.tree = ttk.Treeview(root, columns=("目录", "文件数", "总行数"), show="headings")
self.tree.heading("目录", text="目录路径")
self.tree.heading("文件数", text="Excel文件数量")
self.tree.heading("总行数", text="内容总条数")
self.tree.column("目录", width=450)
self.tree.column("文件数", width=100)
self.tree.column("总行数", width=120)
self.tree.place(x=20, y=100, width=700, height=400)
# 汇总
self.summary_label = tk.Label(root, text="📊 汇总:共 0 个目录 | 总计 0 条数据", font=("Arial", 12, "bold"))
self.summary_label.place(x=20, y=510)
def select_path(self):
path = filedialog.askdirectory()
if path:
self.target_path.set(path)
def clear_result(self):
for item in self.tree.get_children():
self.tree.delete(item)
self.total_count = 0
self.status_label.config(text="状态:已清空")
self.summary_label.config(text="📊 汇总:共 0 个目录 | 总计 0 条数据")
def start_count(self):
path = self.target_path.get().strip()
if not os.path.isdir(path):
messagebox.showerror("错误", "请选择有效文件夹!")
return
self.start_btn.config(state=tk.DISABLED)
self.status_label.config(text="状态:正在统计...")
self.clear_result()
# 子线程运行,防止界面卡死
thread = threading.Thread(target=self.do_count, args=(path,))
thread.daemon = True
thread.start()
def do_count(self, root_path):
dir_data = {} # key:目录路径 value:[文件数, 总行数]
excel_ext = (".xlsx", ".xls", ".csv")
try:
# 遍历所有目录和文件
for folder_path, _, files in os.walk(root_path):
file_count = 0
row_count = 0
for file in files:
if file.lower().endswith(excel_ext):
file_path = os.path.join(folder_path, file)
try:
if file.endswith(".csv"):
df = pd.read_csv(file_path, on_bad_lines="skip")
else:
df = pd.read_excel(file_path, sheet_name=None)
row_count += sum(len(sheet) for sheet in df.values())
file_count += 1
except Exception as e:
print(f"读取失败:{file_path} => {str(e)}")
if file_count > 0:
dir_data[folder_path] = [file_count, row_count]
# 统计完成,更新界面
total_dir = len(dir_data)
total_rows = sum(v[1] for v in dir_data.values())
for folder, (f_cnt, r_cnt) in dir_data.items():
self.tree.insert("", tk.END, values=(folder, f_cnt, r_cnt))
self.status_label.config(text="状态:✅ 统计完成", fg="green")
self.summary_label.config(
text=f"📊 汇总:共 {total_dir} 个目录 | 总计 {total_rows} 条数据",
fg="red"
)
except Exception as e:
messagebox.showerror("异常", f"统计出错:{str(e)}")
self.status_label.config(text="状态:❌ 统计失败", fg="red")
finally:
self.start_btn.config(state=tk.NORMAL)
if __name__ == "__main__":
window = tk.Tk()
app = ExcelCounterApp(window)
window.mainloop()
四、工具输出结果说明
运行后会得到两份核心结果:
五、适配爬虫场景的实用技巧
针对全国分省爬虫数据归档这类高频场景,补充 3 个实用优化点:
- 表头适配调整
若你的 Excel 无表头,把代码中skip_header=True改为False,直接统计全行数。 - 大文件提速优化
单个文件超 10 万行时,用read_only模式加载,避免内存溢出,代码已内置优化。 - 批量验收闭环
爬虫运行完成后,先运行统计工具,核对总行数与预期爬取量是否一致,不一致直接定位异常文件,不用重新爬取。
六、写在最后
数据采集只是第一步,高效盘点、精准对账才是项目闭环的关键。
面对成百上千个分省、分市 Excel 文件,别再用手动统计的笨办法,这款工具能帮你把半小时的工作量压缩到 10 秒内,零门槛、零配置、直接复用。
后续我们还会分享爬虫数据自动合并、多 Excel 格式标准化、异常数据清洗等实战工具,持续输出能直接落地的办公自动化干货。
需要代码文件、定制适配你的 Excel 格式,或者有其他数据批量处理需求,都可以留言交流~