【Python Cookbook】文件与 IO(一)

文件与 IO(一)

1.读写文本数据

你需要读写各种不同编码的文本数据,比如 ASCIIUTF-8UTF-16 编码等。

使用带有 rt 模式的 open() 函数读取文本文件。如下所示:

python 复制代码
# Read the entire file as a single string
with open('somefile.txt', 'rt') as f:
    data = f.read()

# Iterate over the lines of the file
with open('somefile.txt', 'rt') as f:
    for line in f:
        # process line
        ...

🚀 在 Python 中,open() 函数的 rt 模式表示以 文本模式读取read text)文件。

  • r只读模式 (默认模式),文件必须存在,否则会报错 FileNotFoundError
  • t文本模式 (默认模式),文件内容会被解码为字符串(Python 3 中默认是 str 类型,Unicode 编码)。

因此,rt 等价于单独使用 r(因为 t 是默认值)。以下两种写法完全等效:

python 复制代码
open('file.txt', 'rt')  # 显式指定 rt
open('file.txt', 'r')   # 隐式使用默认的 t 模式

类似的,为了写入一个文本文件,使用带有 wt 模式的 open() 函数,如果之前文件内容存在则清除并覆盖掉。如下所示:

python 复制代码
# Write chunks of text data
with open('somefile.txt', 'wt') as f:
    f.write(text1)
    f.write(text2)
    ...

# Redirected print statement
with open('somefile.txt', 'wt') as f:
    print(line1, file=f)
    print(line2, file=f)
    ...

🚀 在 Python 中,open() 函数的 wt 模式表示以 文本模式写入write text)文件。

  • w写入模式 (如果文件已存在,会 清空内容 ;如果文件不存在,会 创建新文件)。
  • t文本模式 (默认模式),写入的内容必须是字符串(str 类型),而非二进制数据(bytes)。

因此,wt 等价于单独使用 w(因为 t 是默认值)。以下两种写法完全等效:

python 复制代码
open('file.txt', 'wt')  # 显式指定 wt
open('file.txt', 'w')   # 隐式使用默认的 t 模式

如果是在已存在文件中添加内容,使用模式为 atopen() 函数。

模式 描述
wb 二进制模式写入(需 bytes 类型数据)
w+w+t 可读写文本模式(先清空文件)
aat 追加文本模式(不覆盖原内容)
xxt 独占创建模式(文件存在则报错)

文件的读写操作默认使用系统编码,可以通过调用 sys.getdefaultencoding() 来得到。在大多数机器上面都是 utf-8 编码。如果你已经知道你要读写的文本是其他编码方式,那么可以通过传递一个可选的 encoding 参数给 open() 函数。如下所示:

python 复制代码
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    ...

Python 支持非常多的文本编码。几个常见的编码是 asciilatin-1utf-8utf-16

  • 在 Web 应用程序中通常都使用的是 UTF-8。
  • ascii 对应从 U+0000U+007F 范围内的 7 位字符。
  • latin-1 是字节 0-255 到 U+0000 至 U+00FF 范围内 Unicode 字符的直接映射。

当读取一个未知编码的文本时使用 latin-1 编码永远不会产生解码错误。使用 latin-1 编码读取一个文件的时候也许不能产生完全正确的文本解码数据,但是它也能从中提取出足够多的有用数据。同时,如果你之后将数据回写回去,原先的数据还是会保留的。

🚀 Latin-1(也称为 ISO-8859-1)是一种单字节字符编码标准,属于 ISO/IEC 8859 系列编码的一部分。

  1. 编码范围
  • 使用 8 位(1字节)表示一个字符
  • 共 256 个码位(0x00-0xFF
  • 其中 0x00-0x7F 与 ASCII 完全一致
  • 0x80-0xFF 用于扩展字符(西欧语言字符)
  1. 覆盖语言
  • 主要支持西欧语言(英语、法语、德语、西班牙语、葡萄牙语等)
  • 包含重音字母、货币符号等特殊字符
  1. Unicode关系
  • Latin-1 字符集中的字符在 Unicode 中的码位与 Latin-1 编码值相同(U+0000U+00FF

读写文本文件一般来讲是比较简单的。但是也有几点是需要注意的。首先,在例子程序中的 with 语句给被使用到的文件创建了一个上下文环境, 但 with 控制块结束时,文件会自动关闭。你也可以不使用 with 语句,但是这时候你就必须记得手动关闭文件:

python 复制代码
f = open('somefile.txt', 'rt')
data = f.read()
f.close()

另外一个问题是关于换行符的识别问题,在 Unix 和 Windows 中是不一样的(分别是 \n\r\n)。 默认情况下,Python 会以统一模式处理换行符。这种模式下,在读取文本的时候,Python 可以识别所有的普通换行符并将其转换为单个 \n 字符。 类似的,在输出时会将换行符 \n 转换为系统默认的换行符。如果你不希望这种默认的处理方式,可以给 open() 函数传入参数 newline='' ,就像下面这样:

python 复制代码
# Read with disabled newline translation
with open('somefile.txt', 'rt', newline='') as f:
    ...

在 Python 的 open() 函数中,newline 参数用于控制文本模式下的 换行符(行结束符)处理方式。它在不同操作系统的换行符兼容性中尤为重要。

为了说明两者之间的差异,下面我在 Unix 机器上面读取一个 Windows 上面的文本文件,里面的内容是 hello world!\r\n

python 复制代码
>>> # Newline translation enabled (the default)
>>> f = open('hello.txt', 'rt')
>>> f.read()
'hello world!\n'

>>> # Newline translation disabled
>>> g = open('hello.txt', 'rt', newline='')
>>> g.read()
'hello world!\r\n'
>>>
取值 读取时(输入) 写入时(输出)
None(默认) 自动将不同系统的换行符(\n\r\n\r)统一转换为 \n 根据当前操作系统转换: (1)Unix/Linux:\n (2)Windows:\r\n (3)旧版 Mac:\r
''(空字符串) 保留原始换行符(不转换),文件中的 \n\r\n\r 会原样保留。 直接输出写入的 \n,不进行任何转换。
其他字符串(如 '\n''\r\n' 强制将指定的字符串作为换行符解析(极少用)。 将所有的 \n 替换为指定的字符串(如 '\r\n')。

最后一个问题就是文本文件中可能出现的编码错误。但你读取或者写入一个文本文件时,你可能会遇到一个编码或者解码错误。比如:

python 复制代码
>>> f = open('sample.txt', 'rt', encoding='ascii')
>>> f.read()
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, in decode
        return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position
12: ordinal not in range(128)
>>>

如果出现这个错误,通常表示你读取文本时指定的编码不正确。你最好仔细阅读说明并确认你的文件编码是正确的(比如使用 UTF-8 而不是 Latin-1 编码或其他)。如果编码错误还是存在的话,你可以给 open() 函数传递一个可选的 errors 参数来处理这些错误。 下面是一些处理常见错误的方法:

python 复制代码
>>> # Replace bad chars with Unicode U+fffd replacement char
>>> f = open('sample.txt', 'rt', encoding='ascii', errors='replace')
>>> f.read()
'Spicy Jalape?o!'
>>> # Ignore bad chars entirely
>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignore')
>>> g.read()
'Spicy Jalapeo!'
>>>

如果你经常使用 errors 参数来处理编码错误,可能会让你的生活变得很糟糕。对于文本处理的首要原则是确保你总是使用的是正确编码。当模棱两可的时候,就使用默认的设置(通常都是 UTF-8)。

注意事项

  • 二进制模式无效newline 仅在文本模式(如 rtwt)下生效,二进制模式(如 rbwb)会忽略它。
  • CSV 文件处理csv 模块在写入时通常需要指定 newline='',以避免额外空行(官方文档推荐)。
  • 性能影响:频繁的换行符转换可能轻微影响性能,但对大多数场景可忽略。

2.打印输出至文件中

你想将 print() 函数的输出重定向到一个文件中去。

print() 函数中指定 file 关键字参数,像下面这样:

python 复制代码
with open('d:/work/test.txt', 'wt') as f:
    print('Hello World!', file=f)

关于输出重定向到文件中就这些了。但是有一点要注意的就是文件必须是以文本模式打开。如果文件是二进制模式的话,打印就会出错。

3.使用其他分隔符或行终止符打印

你想使用 print() 函数输出数据,但是想改变默认的分隔符或者行尾符。

可以使用在 print() 函数中使用 sepend 关键字参数,以你想要的方式输出。比如:

python 复制代码
>>> print('ACME', 50, 91.5)
ACME 50 91.5
>>> print('ACME', 50, 91.5, sep=',')
ACME,50,91.5
>>> print('ACME', 50, 91.5, sep=',', end='!!\n')
ACME,50,91.5!!
>>>

使用 end 参数也可以在输出中禁止换行。比如:

python 复制代码
>>> for i in range(5):
...     print(i)
...
0
1
2
3
4
>>> for i in range(5):
...     print(i, end=' ')
...
0 1 2 3 4 >>>

当你想使用非空格分隔符来输出数据的时候,给 print() 函数传递一个 sep 参数是最简单的方案。 有时候你会看到一些程序员会使用 str.join() 来完成同样的事情。比如:

python 复制代码
>>> print(','.join(('ACME','50','91.5')))
ACME,50,91.5
>>>

str.join() 的问题在于它仅仅适用于字符串。这意味着你通常需要执行另外一些转换才能让它正常工作。比如:

python 复制代码
>>> row = ('ACME', 50, 91.5)
>>> print(','.join(row))
Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
TypeError: sequence item 1: expected str instance, int found
>>> print(','.join(str(x) for x in row))
ACME,50,91.5
>>>

你当然可以不用那么麻烦,只需要像下面这样写:

python 复制代码
>>> print(*row, sep=',')
ACME,50,91.5
>>>

4.读写字节数据

你想读写二进制文件,比如图片,声音文件等等。

使用模式为 rbwbopen() 函数来读取或写入二进制数据。比如:

python 复制代码
# Read the entire file as a single byte string
with open('somefile.bin', 'rb') as f:
    data = f.read()

# Write binary data to a file
with open('somefile.bin', 'wb') as f:
    f.write(b'Hello World')

在读取二进制数据时,需要指明的是所有返回的数据都是字节字符串格式的,而不是文本字符串。类似的,在写入的时候,必须保证参数是以字节形式对外暴露数据的对象(比如字节字符串,字节数组对象等)。

在读取二进制数据的时候,字节字符串文本字符串 的语义差异可能会导致一个潜在的陷阱。特别需要注意的是,索引和迭代动作返回的是字节的值而不是字节字符串。比如:

python 复制代码
>>> # Text string
>>> t = 'Hello World'
>>> t[0]
'H'
>>> for c in t:
...     print(c)
...
H
e
l
l
o
...
>>> # Byte string
>>> b = b'Hello World'
>>> b[0]
72
>>> for c in b:
...     print(c)
...
72
101
108
108
111
...
>>>

如果你想从二进制模式的文件中读取或写入文本数据,必须确保要进行解码和编码操作。比如:

python 复制代码
with open('somefile.bin', 'rb') as f:   # 以二进制只读模式打开文件
    data = f.read(16)                   # 读取前16字节的二进制数据
    text = data.decode('utf-8')         # 将二进制数据解码为字符串(UTF-8)

with open('somefile.bin', 'wb') as f:   # 以二进制写入模式打开文件
    text = 'Hello World'                # 定义字符串
    f.write(text.encode('utf-8'))       # 将字符串编码为二进制后写入文件

二进制 I/O 还有一个鲜为人知的特性,就是数组和 C 结构体类型能直接被写入,而不需要中间转换为自己对象。比如:

python 复制代码
import array
nums = array.array('i', [1, 2, 3, 4])
with open('data.bin','wb') as f:
    f.write(nums)

这个适用于任何实现了被称之为 缓冲接口 的对象,这种对象会直接暴露其底层的内存缓冲区给能处理它的操作。二进制数据的写入就是这类操作之一。

很多对象还允许通过使用文件对象的 readinto() 方法直接读取二进制数据到其底层的内存中去。比如:

python 复制代码
>>> import array
>>> a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
>>> with open('data.bin', 'rb') as f:
...     f.readinto(a)
...
16
>>> a
array('i', [1, 2, 3, 4, 0, 0, 0, 0])
>>>

🚀 readinto() 是 Python 文件对象(io.FileIO 或二进制模式打开的文件)的一个方法,用于 高效地将文件数据读取到预分配的字节缓冲区(bytearraymemoryview ,而不是返回一个新的 bytes 对象。它的主要用途是 减少内存分配,提高 I/O 性能,尤其是在处理大文件或高频读取时。

但是使用这种技术的时候需要格外小心,因为它通常具有平台相关性,并且可能会依赖字长和字节顺序(高位优先和低位优先)。

方法 返回值 内存分配 适用场景
read(n) bytes 每次返回新对象 简单读取
readinto(buffer) int(实际读取字节数) 复用现有缓冲区 高性能 I/O

5.文件不存在才能写入

你想向一个文件中写入数据,但是前提必须是这个文件在文件系统上不存在。也就是不允许覆盖已存在的文件内容。

w 模式(写入模式)

  • 行为

    • 如果文件 已存在 ,会 直接覆盖(清空原有内容)。
    • 如果文件 不存在 ,会 创建新文件
  • 风险:可能意外覆盖重要文件!
    x 模式(独占创建模式)

  • 行为

    • 如果文件 已存在 ,会抛出 FileExistsError 异常。
    • 如果文件 不存在 ,会 创建新文件
  • 用途:确保不会意外覆盖已有文件,适合需要安全写入的场景。

可以在 open() 函数中使用 x 模式来代替 w 模式的方法来解决这个问题。比如:

python 复制代码
>>> with open('somefile', 'wt') as f:
...     f.write('Hello\n')
...
>>> with open('somefile', 'xt') as f:
...     f.write('Hello\n')
...
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
FileExistsError: [Errno 17] File exists: 'somefile'
>>>

如果文件是二进制的,使用 xb 来代替 xt

这一小节演示了在写文件时通常会遇到的一个问题的完美解决方案(不小心覆盖一个已存在的文件)。一个替代方案是先测试这个文件是否存在,像下面这样:

python 复制代码
>>> import os
>>> if not os.path.exists('somefile'):
...     with open('somefile', 'wt') as f:
...         f.write('Hello\n')
... else:
...     print('File already exists!')
...
File already exists!
>>>

显而易见,使用 x 文件模式更加简单。要注意的是 x 模式是一个 Python3 对 open() 函数特有的扩展。在 Python 的旧版本或者是 Python 实现的底层 C 函数库中都是没有这个模式的。

相关推荐
G皮T1 小时前
【Python Cookbook】文件与 IO(二)
python·i/o·io·文件·gzip·stringio·bytesio
封奚泽优1 小时前
使用Python绘制节日祝福——以端午节和儿童节为例
人工智能·python·深度学习
干啥都是小小白2 小时前
话题通信之python实现
python·机器人·ros
仟濹2 小时前
「数据采集与网络爬虫(使用Python工具)」【数据分析全栈攻略:爬虫+处理+可视化+报告】
大数据·爬虫·python·数据挖掘·数据分析
水银嘻嘻2 小时前
03 APP 自动化-定位元素工具&元素定位
python·appium·自动化
蹦蹦跳跳真可爱5893 小时前
Python----目标检测(《用于精确目标检测和语义分割的丰富特征层次结构》和R-CNN)
人工智能·python·深度学习·神经网络·目标检测·cnn
抽风的雨6103 小时前
【python深度学习】Day 42 Grad-CAM与Hook函数
开发语言·python·深度学习
Mikhail_G3 小时前
Python应用for循环临时变量作用域
大数据·运维·开发语言·python·数据分析
人衣aoa4 小时前
Python编程基础(二)| 列表简介
开发语言·python
豆沙沙包?5 小时前
2025年- H61-Lc169--74.搜索二维矩阵(二分查找)--Java版
python·线性代数·矩阵