【目录】
-
- 前言
- 一、Python高效数据处理整体流程
-
- [📊 处理流程图](#📊 处理流程图)
- 二、环境准备(1行安装)
- 三、1行代码搞定高频数据处理场景
-
- [1. 一行代码读取 Excel/CSV 文件](#1. 一行代码读取 Excel/CSV 文件)
- [2. 一行代码查看数据基本信息(行列、类型、缺失值)](#2. 一行代码查看数据基本信息(行列、类型、缺失值))
- [3. 一行代码删除缺失值 / 填充缺失值](#3. 一行代码删除缺失值 / 填充缺失值)
- [4. 一行代码数据去重](#4. 一行代码数据去重)
- [5. 一行代码筛选数据](#5. 一行代码筛选数据)
- [6. 一行代码分组统计](#6. 一行代码分组统计)
- [7. 一行代码排序](#7. 一行代码排序)
- [8. 一行代码新增列](#8. 一行代码新增列)
- [9. 一行代码字典/列表快速转DataFrame](#9. 一行代码字典/列表快速转DataFrame)
- [10. 一行代码导出 Excel / CSV](#10. 一行代码导出 Excel / CSV)
- 四、综合实战:10行内完成一套完整数据处理
- 五、常用一行代码速查表(建议收藏)
- 六、总结

前言
在日常开发、数据分析、自动化办公场景中,我们经常要和数据清洗、格式转换、统计汇总、文件处理打交道。传统写法动辄十几行代码,不仅冗余还容易出错。
而Python凭借简洁语法+强大第三方库,真正做到了一行代码实现复杂数据操作。本文整理了高频实用场景,覆盖90%日常需求,附带可直接复制运行的代码,新手也能秒变效率大神!
一、Python高效数据处理整体流程
下图为Python一行代码数据处理标准流程:
数据加载 → 清洗过滤 → 格式转换 → 统计分析 → 结果导出
↑ ↑ ↑ ↑ ↑
一行代码 一行代码 一行代码 一行代码 一行代码
📊 处理流程图
原始数据 Excel/CSV/TXT
一行代码加载
一行代码缺失值处理
一行代码去重/筛选
一行代码分组统计
一行代码导出文件
完成数据处理
二、环境准备(1行安装)
bash
pip install pandas numpy openpyxl
Pandas 是 Python 数据处理神器,本文所有技巧均基于 Pandas + Python 原生语法。
三、1行代码搞定高频数据处理场景
1. 一行代码读取 Excel/CSV 文件
python
import pandas as pd
# 读取CSV
df = pd.read_csv("data.csv")
# 读取Excel
df = pd.read_excel("data.xlsx")
# 一行展示全部数据概览
print(df)
2. 一行代码查看数据基本信息(行列、类型、缺失值)
python
df.info(), df.describe(), df.isnull().sum()
| 方法 | 作用 |
|---|---|
| df.info() | 查看字段类型、非空数量 |
| df.describe() | 最大值、最小值、均值、标准差 |
| df.isnull().sum() | 统计每列缺失值数量 |
3. 一行代码删除缺失值 / 填充缺失值
python
# 删除含缺失值行
df = df.dropna()
# 用均值填充数值型缺失值
df = df.fillna(df.mean())
4. 一行代码数据去重
python
df = df.drop_duplicates()
5. 一行代码筛选数据
python
# 筛选成绩大于90分的数据
df = df[df["score"] > 90]
6. 一行代码分组统计
python
# 按班级分组,计算平均分
result = df.groupby("class")["score"].mean()
7. 一行代码排序
python
# 按成绩降序排列
df = df.sort_values(by="score", ascending=False)
8. 一行代码新增列
python
# 根据成绩判断是否及格
df["is_pass"] = df["score"].apply(lambda x: "及格" if x >= 60 else "不及格")
9. 一行代码字典/列表快速转DataFrame
python
data = [{"name":"张三","score":95},{"name":"李四","score":88}]
df = pd.DataFrame(data)
10. 一行代码导出 Excel / CSV
python
df.to_excel("结果数据.xlsx", index=False)
df.to_csv("结果数据.csv", index=False)
四、综合实战:10行内完成一套完整数据处理
python
import pandas as pd
# 1. 加载数据
df = pd.read_excel("学生成绩.xlsx")
# 2. 去重+删缺失值
df = df.drop_duplicates().dropna()
# 3. 筛选及格学生
df = df[df["score"] >= 60]
# 4. 按班级统计平均分
res = df.groupby("class")["score"].agg(["mean", "max", "min"])
# 5. 导出结果
res.to_excel("班级统计结果.xlsx")
print("处理完成!")
五、常用一行代码速查表(建议收藏)
| 需求场景 | 一行代码实现 |
|---|---|
| 读取文件 | pd.read_csv/excel() |
| 查看概览 | df.info();df.describe() |
| 处理空值 | df.dropna()/fillna() |
| 数据去重 | df.drop_duplicates() |
| 条件筛选 | df[df[col] > 值] |
| 分组统计 | df.groupby(col)[val].mean() |
| 排序 | df.sort_values() |
| 新增列 | df[new_col] = df[col].apply() |
| 类型转换 | df[col] = df[col].astype(int) |
| 导出文件 | df.to_excel/csv() |
六、总结
- Python + Pandas 可一行代码完成绝大多数数据处理
- 日常办公、数据分析、自动化脚本,这套技巧足够覆盖90%需求
- 代码越少,可读性越高、BUG越少、效率越高
- 新手建议收藏速查表,随用随查,快速提升开发效率