别再用低效方式读取数据了,这4种Pandas方法让你效率提升10倍

痛点暴击开头

你有没有遇到过这种情况:

刚拿到一个1GB的CSV文件,你双击打开...Excel直接卡死,电脑风扇狂转,你只能强制重启电脑。

或者更惨:你写了pd.read_csv('huge_file.csv'),然后去接了杯水,刷了会儿朋友圈,回来一看...内存爆了,Python进程被强制杀死。

上周我们组来了个实习生,处理一个销售数据的Excel文件,他老老实实地一个sheet一个sheet地复制粘贴,结果花了一整天还没弄完。

老大看了直摇头:"你知道pandas可以一键读取所有sheet吗?"

实习生愣住了。我也愣住了。

今天咱们就来彻底搞懂pandas的数据读取,让你从小白秒变数据读取高手!


CSV读取:不是所有逗号都是平等的

错误示范(血的教训)

python 复制代码
# ❌ 新手这样写(包括三个月前的我)
import pandas as pd

# 简单粗暴地读取
df = pd.read_csv('data.csv')

# 遇到中文乱码?凉拌!
# 遇到分号分隔?凉拌!
# 遇到没有表头?凉拌!

结果呢?要么中文变成乱码,要么列名错位,要么直接报错。就像你女朋友说"随便",然后你真的随便了...

正确姿势:优雅地处理各种奇葩CSV

python 复制代码
# ✅ 专业人士的打开方式
import pandas as pd

# 基础但完整的读取
df = pd.read_csv('data.csv',
                encoding='utf-8',        # 解决中文乱码
                sep=',',                 # 明确分隔符
                header=0,                # 表头在第几行
                index_col=0,             # 哪一列作为索引
                na_values=['NA', 'null', 'N/A'])  # 空值怎么识别

但是,真实世界的CSV文件远比你想象的要奇葩!

python 复制代码
# 🚀 高手进阶:处理各种奇葩情况

# 1. 分号分隔的欧洲格式
df_euro = pd.read_csv('euro_data.csv', sep=';')

# 2. 没有表头,需要自己命名
df_no_header = pd.read_csv('data_no_header.csv',
                          header=None,
                          names=['ID', 'Name', 'Age', 'Score'])

# 3. 表头不在第一行(比如某些导出文件)
df_skip = pd.read_csv('report.csv', header=5)  # 跳过前5行,第6行作为表头

# 4. 自动识别分隔符(遇到奇葩文件时)
df_auto = pd.read_csv('weird_file.csv', sep=None, engine='python')

# 5. 只读取需要的列(内存优化利器)
df_cols = pd.read_csv('big_data.csv',
                     usecols=['name', 'age', 'salary'])  # 只要这3列

# 6. 分块读取超大文件(内存不够时的救星)
chunk_iter = pd.read_csv('huge_file.csv', chunksize=10000)
for chunk in chunk_iter:
    # 每次处理10000行
    process_chunk(chunk)

关键参数解析:

  • encodingutf-8gbklatin-1,解决乱码的神器
  • sep:分隔符,可以是逗号、分号、制表符等
  • header:表头行号,None表示没有表头
  • usecols:只读取指定列,节省内存的利器
  • chunksize:分块读取,处理大文件的法宝

Excel读取:告别手动复制粘贴

错误示范:手动操作的地狱

python 复制代码
# ❌ 低效到哭的操作
# 1. 手动打开Excel
# 2. 一个sheet一个sheet地复制
# 3. 粘贴到Python里
# 4. 重复以上步骤100次...

# 更惨的情况:
# - Excel文件太大,打开就要5分钟
# - 有密码保护,还要输密码
# - 包含公式,复制过来全是错误值

正确姿势:一行代码读取所有sheet

python 复制代码
# ✅ 优雅的Excel读取
import pandas as pd

# 读取单个sheet
df = pd.read_excel('sales_data.xlsx', sheet_name='Sheet1')

# 🚀 高手操作:一次性读取所有sheet
all_sheets = pd.read_excel('multi_sheet.xlsx', sheet_name=None)
# 结果是一个字典,key是sheet名,value是对应的DataFrame

for sheet_name, df in all_sheets.items():
    print(f"Sheet: {sheet_name}, 行数: {len(df)}")

# 🚀 指定读取第几个sheet(从0开始)
df_second = pd.read_excel('data.xlsx', sheet_name=1)

# 🚀 指定引擎(解决某些兼容性问题)
df_xls = pd.read_excel('old_file.xls', engine='openpyxl')
df_xlsx = pd.read_excel('new_file.xlsx', engine='xlrd')

处理Excel的特殊情况

python 复制代码
# 🎯 处理复杂的Excel文件

# 1. 指定读取行范围
df_partial = pd.read_excel('data.xlsx',
                          sheet_name='Sales',
                          skiprows=5,       # 跳过前5行
                          nrows=100,        # 只读取100行
                          usecols='A:E')    # 只读取A到E列

# 2. 处理日期列
df_dates = pd.read_excel('data.xlsx',
                        parse_dates=['订单日期', '发货日期'])

# 3. 处理多个表头(复杂的报表格式)
df_multi_header = pd.read_excel('complex_report.xlsx',
                               header=[0, 1])  # 前两行都是表头

# 4. 读取指定单元格区域
# 先读取整个sheet,再切片
df_full = pd.read_excel('data.xlsx', sheet_name='Data')
df_subset = df_full.iloc[10:50, 2:8]  # 第11-50行,第3-8列

JSON读取:告别eval()的危险操作

错误示范:玩火的行为

python 复制代码
# ❌ 危险操作!千万别这么干!
import json
import pandas as pd

# 有人居然用eval()...
with open('data.json', 'r') as f:
    data_str = f.read()
    data = eval(data_str)  # 😱 危险!可以执行任意代码!

# 或者更骚的操作:手动解析
# 结果:错漏百出,维护困难

正确姿势:安全优雅的JSON处理

python 复制代码
# ✅ 专业人士的JSON读取
import pandas as pd
from io import StringIO

# 1. 读取JSON文件
df = pd.read_json('data.json')

# 2. 从字符串读取JSON
json_str = '{"name": ["张三", "李四"], "age": [25, 30]}'
df = pd.read_json(StringIO(json_str))

# 🚀 处理不同的JSON格式

# 3. 嵌套JSON的扁平化
nested_json = '''
{
    "employees": [
        {"name": "张三", "dept": {"name": "技术部", "id": 1}},
        {"name": "李四", "dept": {"name": "销售部", "id": 2}}
    ]
}
'''
df_nested = pd.read_json(StringIO(nested_json))

# 4. 行格式JSON(每行一个JSON对象)
# 适用于日志文件、API返回等场景
lines_json = '''
{"name": "张三", "age": 25, "city": "北京"}
{"name": "李四", "age": 30, "city": "上海"}
{"name": "王五", "age": 28, "city": "广州"}
'''
df_lines = pd.read_json(StringIO(lines_json), lines=True)

# 5. 指定JSON的读取方向
df_records = pd.read_json('data.json', orient='records')  # 记录格式
df_index = pd.read_json('data.json', orient='index')     # 索引格式
df_values = pd.read_json('data.json', orient='values')   # 值格式

JSON数据清洗实战

python 复制代码
# 🎯 真实场景:处理API返回的JSON数据
import requests
import pandas as pd

# 模拟API调用
response = requests.get('https://api.example.com/users')
data = response.json()

# 转换为DataFrame
df_users = pd.DataFrame(data['users'])

# 嵌套字段展开
df_users['city'] = df_users['address'].apply(lambda x: x['city'])
df_users['street'] = df_users['address'].apply(lambda x: x['street'])

# 删除原始嵌套字段
df_users = df_users.drop('address', axis=1)

# 日期格式转换
df_users['created_at'] = pd.to_datetime(df_users['created_at'])

SQL读取:数据库连接的艺术

错误示范:手动导出的痛苦

python 复制代码
# ❌ 传统但低效的方式
# 1. 打开数据库管理工具
# 2. 写SQL查询
# 3. 导出为CSV
# 4. 用pandas读取CSV
# 5. 发现数据不对,重复以上步骤...

# 或者更惨:
# - 手动复制粘贴结果,超过1000行就卡死
# - 导出的文件编码不对,中文乱码
# - 每次都要重复导出,烦死人

正确姿势:直接连接数据库

python 复制代码
# ✅ 优雅的数据库读取
import pandas as pd
import sqlite3  # SQLite示例
from sqlalchemy import create_engine  # 更通用的方案

# 1. SQLite连接(轻量级,文件数据库)
conn = sqlite3.connect('database.db')

# 简单查询
df = pd.read_sql_query("SELECT * FROM users WHERE age > 25", conn)

# 🚀 高级操作

# 2. 使用SQLAlchemy(支持各种数据库)
# MySQL: engine = create_engine('mysql://user:password@host:port/database')
# PostgreSQL: engine = create_engine('postgresql://user:password@host:port/database')
engine = create_engine('sqlite:///database.db')

# 查询并直接返回DataFrame
df = pd.read_sql("SELECT * FROM sales WHERE date >= '2023-01-01'", engine)

# 3. 读取整个表
df_table = pd.read_sql_table('users', engine)

# 4. 使用参数化查询(防SQL注入)
query = "SELECT * FROM products WHERE price > ? AND category = ?"
df_params = pd.read_sql(query, engine, params=[100, 'Electronics'])

# 5. 分块读取大表
chunk_iter = pd.read_sql("SELECT * FROM large_table", engine, chunksize=10000)
for chunk in chunk_iter:
    process_chunk(chunk)

SQL读取的最佳实践

python 复制代码
# 🎯 生产环境的SQL读取方案

# 1. 连接池配置(提高性能)
from sqlalchemy import create_engine
from sqlalchemy.pool import QueuePool

engine = create_engine(
    'postgresql://user:password@localhost:5432/mydb',
    poolclass=QueuePool,
    pool_size=5,
    max_overflow=10
)

# 2. 上下文管理器(确保连接关闭)
with engine.connect() as conn:
    df = pd.read_sql("SELECT * FROM orders", conn)

# 3. 复杂查询的优化
# 只读取需要的列
df_optimized = pd.read_sql("""
    SELECT id, name, email, created_at
    FROM users
    WHERE status = 'active'
    ORDER BY created_at DESC
    LIMIT 1000
""", engine)

# 4. 处理大表的数据类型
# 避免内存溢出,指定数据类型
dtypes = {
    'user_id': 'int32',
    'price': 'float32',
    'status': 'category'
}
df_efficient = pd.read_sql("SELECT * FROM transactions", engine, dtype=dtypes)

# 5. 时间处理
df_time = pd.read_sql("""
    SELECT *,
           EXTRACT(YEAR FROM created_at) as year,
           EXTRACT(MONTH FROM created_at) as month
    FROM orders
""", engine, parse_dates=['created_at'])

实战演练:一个完整的数据处理流程

假设你收到了一份销售数据,包含CSV、Excel、JSON和数据库四种格式:

python 复制代码
import pandas as pd
import sqlite3
from pathlib import Path

# 🎯 完整的数据处理示例
def process_sales_data():

    # 1. 读取主数据(CSV)
    df_sales = pd.read_csv('sales_main.csv',
                          encoding='utf-8',
                          parse_dates=['date'],
                          dtype={'product_id': 'str', 'customer_id': 'str'})

    # 2. 读取产品信息(Excel)
    excel_data = pd.read_excel('products.xlsx', sheet_name=None)
    df_products = excel_data['ProductList']
    df_categories = excel_data['Categories']

    # 3. 读取客户信息(JSON)
    df_customers = pd.read_json('customers.json')

    # 4. 读取补充数据(数据库)
    conn = sqlite3.connect('supplementary.db')
    df_regions = pd.read_sql_query("SELECT * FROM regions", conn)

    # 5. 数据合并和分析
    # 合并销售数据和产品信息
    df_merged = df_sales.merge(df_products, on='product_id', how='left')

    # 合并客户信息
    df_merged = df_merged.merge(df_customers, on='customer_id', how='left')

    # 合并地区信息
    df_merged = df_merged.merge(df_regions, on='region_code', how='left')

    # 6. 数据清洗和转换
    # 处理缺失值
    df_merged['price'] = df_merged['price'].fillna(df_merged['price'].median())

    # 计算销售金额
    df_merged['total_amount'] = df_merged['quantity'] * df_merged['price']

    # 提取月份
    df_merged['month'] = df_merged['date'].dt.month

    return df_merged

# 使用函数
df_result = process_sales_data()
print(f"处理完成!共{len(df_result)}条记录")

性能优化:让你的数据读取飞起来

内存优化技巧

python 复制代码
# 🚀 大文件处理优化方案

# 1. 指定数据类型(减少内存占用)
dtypes_optimized = {
    'id': 'int32',
    'name': 'category',  # 重复值多的列用category类型
    'price': 'float32',
    'is_active': 'bool'  # 布尔值
}

df_small = pd.read_csv('large_file.csv', dtype=dtypes_optimized)

# 2. 只读取需要的列
df_selected = pd.read_csv('data.csv',
                         usecols=['name', 'age', 'salary'],
                         dtype={'name': 'str', 'age': 'int16', 'salary': 'float32'})

# 3. 分块处理大文件
chunk_size = 100000
results = []

for chunk in pd.read_csv('huge_file.csv', chunksize=chunk_size):
    # 对每个chunk进行处理
    processed_chunk = chunk[chunk['salary'] > 50000]
    results.append(processed_chunk)

df_final = pd.concat(results, ignore_index=True)

# 4. 使用低内存引擎
df_low_memory = pd.read_csv('data.csv', engine='c', low_memory=True)

并行读取优化

python 复制代码
# 🎯 并行处理多个文件
import pandas as pd
from concurrent.futures import ThreadPoolExecutor
import glob

def read_file(file_path):
    """读取单个文件的函数"""
    try:
        return pd.read_csv(file_path)
    except Exception as e:
        print(f"读取文件 {file_path} 失败: {e}")
        return None

# 获取所有CSV文件
file_list = glob.glob('data/*.csv')

# 使用线程池并行读取
with ThreadPoolExecutor(max_workers=4) as executor:
    dfs = list(executor.map(read_file, file_list))

# 过滤掉读取失败的文件
dfs = [df for df in dfs if df is not None]

# 合并所有DataFrame
df_combined = pd.concat(dfs, ignore_index=True)
print(f"成功读取并合并了{len(dfs)}个文件")

常见坑爹问题及解决方案

1. 编码问题

python 复制代码
# ❌ 编码错误:UnicodeDecodeError
# df = pd.read_csv('chinese_data.csv')  # 可能报错

# ✅ 解决方案
try:
    df = pd.read_csv('chinese_data.csv', encoding='utf-8')
except UnicodeDecodeError:
    try:
        df = pd.read_csv('chinese_data.csv', encoding='gbk')
    except UnicodeDecodeError:
        df = pd.read_csv('chinese_data.csv', encoding='latin-1')

2. 内存不足

python 复制代码
# ❌ 内存溢出:MemoryError
# df = pd.read_csv('10gb_file.csv')

# ✅ 解决方案:分块读取
chunk_size = 50000
chunk_iter = pd.read_csv('10gb_file.csv', chunksize=chunk_size)

for i, chunk in enumerate(chunk_iter):
    # 处理每个chunk,比如保存到多个小文件
    chunk.to_csv(f'processed_chunk_{i}.csv', index=False)
    print(f"处理完成第{i+1}个chunk")

3. 日期时间解析

python 复制代码
# ❌ 日期被当作字符串读取
# df = pd.read_csv('data.csv')

# ✅ 正确处理日期
df = pd.read_csv('data.csv',
                parse_dates=['date_col'],  # 指定日期列
                date_parser=lambda x: pd.datetime.strptime(x, '%Y-%m-%d'))

# 或者读取后再转换
df['date_col'] = pd.to_datetime(df['date_col'])

总结:数据读取的核心原则

记住一句话:数据读取不只是打开文件,而是优雅地处理各种数据格式和异常情况。

核心要点:

  1. 永远不要信任数据格式:做好异常处理
  2. 内存优化很重要:大数据时要考虑分块和类型优化
  3. 选择合适的工具:不同格式用对应的读取方法
  4. 性能是王道:合理使用并行处理和缓存

下次再遇到数据读取问题,你就知道该怎么办了。


你在项目里遇到过什么奇葩的数据格式?

评论区聊聊,看看有没有更骚的操作!


(如果觉得有用,别忘了点赞收藏,下次找不着了可别怪我没提醒你!)

相关推荐
用户68545375977692 小时前
Pandas数据清洗别再用fillna了,这些骚操作让你效率提升10倍
后端
小飞Coding2 小时前
🔍 你的 Java 应用“吃光”了内存?别慌,NMT 帮你揪出真凶!
jvm·后端
悟空码字2 小时前
Java短信验证码保卫战,当羊毛党遇上“铁公鸡”
java·后端
爱吃KFC的大肥羊2 小时前
Redis 基础完全指南:从全局命令到五大数据结构
java·开发语言·数据库·c++·redis·后端
用户2190326527352 小时前
Spring Boot4.0整合RabbitMQ死信队列详解
java·后端
golang学习记2 小时前
Go Gin 全局异常处理:别让 panic 把你的服务“原地升天”
后端
Targo2 小时前
Go 高可用策略库-Resilience
后端·go
天天摸鱼的java工程师2 小时前
🚪单点登录实战:同端同账号互踢下线的最佳实践(Java 实现)
java·后端
踏浪无痕2 小时前
基于Nacos的轻量任务调度方案 —— 从 XXL-Job 的痛点说起
后端·面试·架构