【Python】数据处理:CSV文件操作

CSV 文件(Comma-Separated Values,逗号分隔值文件)是一种常见的文本文件格式,用于存储表格数据。它的特点是用逗号或其他特定字符(如分号、制表符等)来分隔不同的字段,每行代表表格中的一条记录。

python 复制代码
import csv

基本读写

读取 CSV 文件

最基本的功能是读取 CSV 文件。这可以通过 csv.reader 来实现。

python 复制代码
with open('example.csv', newline='') as csvfile:
    csvreader = csv.reader(csvfile)  #每行内容解析为列表
    for row in csvreader:
        print(row)

这里,newline='' 是为了确保读取时不会因为行结束符的问题出现错误。

写入 CSV 文件

写入 CSV 文件可以使用 csv.writer

python 复制代码
with open('output.csv', 'w', newline='') as csvfile:
    csvwriter = csv.writer(csvfile)
    csvwriter.writerow(['Name', 'Age', 'City'])
    csvwriter.writerow(['Alice', 30, 'New York'])
    csvwriter.writerow(['Bob', 25, 'Los Angeles'])

writerow 方法用于写入单行数据。

字典读写

使用字典读取 CSV 文件

为了更方便地处理 CSV 文件,可以使用 csv.DictReader,它将每行数据读成字典。

python 复制代码
with open('example.csv', newline='') as csvfile:
    csvreader = csv.DictReader(csvfile)  # 创建 DictReader 对象
    headers = csvreader.fieldnames  # 可获取表头
    print("Headers:", headers)
    for row in csvreader:  # 逐行读取数据
        print(row)

DictReader 会自动将第一行作为字典的键。

使用字典写入 CSV 文件

类似地,使用 csv.DictWriter 可以将字典写入 CSV 文件。

python 复制代码
with open('output.csv', 'w', newline='') as csvfile:
    fieldnames = ['Name', 'Age', 'City']
    csvwriter = csv.DictWriter(csvfile, fieldnames=fieldnames)
    csvwriter.writeheader()  # 写入表头
    csvwriter.writerow({'Name': 'Alice', 'Age': 30, 'City': 'New York'})
    csvwriter.writerow({'Name': 'Bob', 'Age': 25, 'City': 'Los Angeles'})

writeheader 方法用于写入表头。

复杂处理

处理不同的分隔符

CSV 文件并不总是用逗号分隔,可以用不同的分隔符。

python 复制代码
with open('example_tab.csv', newline='') as csvfile:
    csvreader = csv.reader(csvfile, delimiter='\t')
    for row in csvreader:
        print(row)

同样地,在写入时也可以指定分隔符。

python 复制代码
with open('output_tab.csv', 'w', newline='') as csvfile:
    csvwriter = csv.writer(csvfile, delimiter='\t')
    csvwriter.writerow(['Name', 'Age', 'City'])
    csvwriter.writerow(['Alice', 30, 'New York'])
    csvwriter.writerow(['Bob', 25, 'Los Angeles'])

处理复杂的 CSV 格式

有时 CSV 文件中包含引号、换行符等特殊字符,可以使用 csv 模块中的 QUOTE_* 常量进行处理。

python 复制代码
with open('complex.csv', 'w', newline='') as csvfile:
    csvwriter = csv.writer(csvfile, quoting=csv.QUOTE_MINIMAL)
    csvwriter.writerow(['Name', 'Age', 'City'])
    csvwriter.writerow(['Alice', 30, 'New\nYork'])
    csvwriter.writerow(['Bob', '25', 'Los "Angeles"'])

常见的 QUOTE_* 常量包括:

  • csv.QUOTE_ALL: 对所有字段都加引号
  • csv.QUOTE_MINIMAL: 只对包含特殊字符的字段加引号
  • csv.QUOTE_NONNUMERIC: 对所有非数字字段加引号
  • csv.QUOTE_NONE: 不加引号

自定义 CSV 方言

可以通过 csv.register_dialect 创建自定义的 CSV 方言,方便处理不同格式的 CSV 文件。

python 复制代码
csv.register_dialect('mydialect', delimiter=';', quoting=csv.QUOTE_NONE)
with open('example.csv', newline='') as csvfile:
    csvreader = csv.reader(csvfile, dialect='mydialect')
    for row in csvreader:
        print(row)

在写入时也可以使用自定义方言:

python 复制代码
with open('output.csv', 'w', newline='') as csvfile:
    csvwriter = csv.writer(csvfile, dialect='mydialect')
    csvwriter.writerow(['Name', 'Age', 'City'])
    csvwriter.writerow(['Alice', 30, 'New York'])
    csvwriter.writerow(['Bob', 25, 'Los Angeles'])
相关推荐
AI帮小忙几秒前
CTF WEB 解题技能
python
科芯创展2 分钟前
30VIN,0.15A,0.8uA低功耗,稳压LDO,XZ6328
python
爱吃生蚝的于勒2 分钟前
QT开发第三章——常用控件
linux·服务器·开发语言·前端·javascript·c++·qt
装不满的克莱因瓶4 分钟前
循环神经网络及LSTM——从序列建模到长期依赖记忆机制
人工智能·pytorch·python·rnn·深度学习·神经网络·lstm
未若君雅裁6 分钟前
工厂模式详解:简单工厂、工厂方法与抽象工厂
java·开发语言
我命由我1234515 分钟前
由 ImageView 获取到的 Drawable 对象,它的 intrinsicWidth、intrinsicWidth 与实际图片的尺寸
java·开发语言·java-ee·android studio·android jetpack·android-studio·android runtime
xuankuxiaoyao16 分钟前
Axios-图书列表案例
开发语言·前端·javascript
guslegend17 分钟前
Java 创建对象有几种方式
java·开发语言
带娃的IT创业者20 分钟前
深度解析 Bun:重新定义 JavaScript 运行时的性能边界
开发语言·javascript·node.js·ecmascript·bun·运行时
布朗克16822 分钟前
29 反射机制
java·开发语言·反射