[Python学习日记-23] Python v2 和 v3 中的字符编码

简介

在Python 中的字符编码（上）和Python 中的字符编码（下）中学习了字符编码的理论知识那么就，我们把目光回到 Python 当中，下面我们来讲述一下 Python2 和 Python3 之间的一些关于编码的差别。

Python2 vs Python3 的编码

一、Python2

Python 出来时还没有 Unicode 和 UTF-8，所以当时龟叔只能选用 ASCII 作为默认编码，一直到 Python2.7 还是用 ASCII，这导致 Python2 默认只支持英文，如果想支持其它语言，则必须单独配置。所以这导致中国的程序员在 Python2 开发应用时，若无意间写下了中文但是却有没有声明，就很容易导致报错等一系列错误

python 复制代码

# py2编码_ascii.py 代码如下
# --------------------------------

print("世界那么大我想去看看")

代码报错如下：

报错大意为：'\xca' 该十六进制编码并不是 ASCII 码，但未声明编码，让你去查看这个网址（PEP 263 -- Defining Python Source Code Encodings | peps.python.org）查看详情

报错当中提到的声明编码其实就是需要在程序首行顶头位置需要写出需要使用的字符编码，这样 Python2 才会进行调度，而声明编码有两种方式分别是：

coding:gbk

-*- encoding:gbk -*- # 官方推荐使用

那我们就使用官方推荐使用的进行使用，我们对上面报错的代码进行改进一下，让他正常显示，代码如下

python 复制代码

# py2编码.py 代码如下
# --------------------------------

# -*- encoding:gbk -*-

print("世界那么大我想去看看")

代码输出如下：

不知道大家有没有发现，前面声明的编码为什么一定是 GBK 编码呢？而不能是 UTF-8 呢？这是因为我们所使用的中文版 Windows 默认的字符编码就是 GBK 而我们如果使用 UTF-8 声明在 cmd（命令行）当中也会显示乱码，修改的代码如下

python 复制代码

# -*- encoding:utf-8 -*-

print("世界那么大我想去看看")

代码输出如下：

造成这种结果的原因是因为 Windows 默认使用的 GBK 编码并不认识 UTF-8，而它只认识 Unicode。而这种问题不单单只是在执行时出现，而是在编写时也有可能遇到该状况，例如我使用的编辑器使用的是 UTF-8 编码，而 Windows 默认使用的是 GBK 编码，如果在 cmd 当中对代码进行查看也会是乱码，如下图所示，我设定编辑器使用的是 UTF-8 编码进行编程

下面我们来看看在 cmd 当中使用 type 命令查看代码是什么结果

所以在 Python2 里编码问题是非常头疼的，若不是彻底理解编码之间的各种关系，会经常容易出现乱码而不知所措。

在字符串类型方面 Python2 也拥有两种类型，分别为：

str 类型表示字节序列

unicode 类型表示 Unicode 字符串

到了 Python3 将彻底结束这一乱象。

二、Python3

在 Python3 推出后，终于把默认编码改成了 Unicode，同时文件存储编码变成了 UTF-8，这意味着，Python3 不再需要像 Python2 那样进行任何声明编码，也意味着可以在代码当中写各种语言文字，下面我们来看看 Python3 的演示代码

python 复制代码

print("世界那么大我想去看看")    # 无需进行任何声明编码

代码输出如下：

在字符串类型方面 Python3 也只剩下了一种类型，即 str 类型表示 Unicode 字符串。

总结

总的来说，Python 3 在字符编码方面进行了改进，使得处理多语言文本更加容易和可靠。在开发新的 Python 项目时，建议使用 Python 3 以避免 Python 2 中可能出现的字符编码问题。