python3.x编码解码unicode字符串

1 python3.x编码解码unicode字符串

python的ASCII码范围为[0,127],非ASCII码范围大于127.

通过str.encode(encoding)和bytes(str,encoding)根据编码名将字符串编码为原始字节。

通过bytes.decode(encoding)和str(bytes,encoding)根据编码名将原始字节解码为字符串。

gbk编码中,1个汉字表示2个字节,utf-8编码中,1个汉字表示3个字节。

1个字节用2位16进制表示。编码和解码必须送编码名encoding。

'\xNN'为两个十六进制,表示1个字节,

'\uNNNN'为unicode转义,表示四个十六进制位,编码1个2字节(16位)字符码,

'\UNNNNNNNN'为unicode转义,表示八个十六进制位,编码1个4字节(32位)字符码,

2个16进制对应1个字节。

注意,2字节用小u(\u),4字节用大U(\U)。

1.1 编码ASCII文本

ASCII文本编码是一种Unicode,存储为表示字符的字节值的一个序列。

ASCII码范围0-127.通过编码后,在字符前加b或B,打印值和字符相同。

python 复制代码
>>> ord('a')
97
>>> chr(97)
'a'
>>> s='abc'
>>> s
'abc'
>>> len(s)
3
>>> [ord(c) for c in s]
[97, 98, 99]
>>> s.encode('ascii')
b'abc'
>>> s.encode('gbk')
b'abc'
>>> s.encode('utf-8')
b'abc'
>>> b_asc=s.encode('ascii')
>>> b_gbk=s.encode('gbk')
>>> b_utf8=s.encode('utf-8')
>>> list(map(list,(b_asc,b_gbk,b_utf8)))
[[97, 98, 99], [97, 98, 99], [97, 98, 99]]

1.2 编码非ASCII文本

编码非ASCII字符(编码值大于127),需用十六进制或Unicode转义。

十六进制转义用于单字节,Unicode用于两个或四个字节。

示例

python 复制代码
>>> a,b=0xa5,0xa9
>>> a,b
(165, 169)
>>> hex(a),hex(b)
('0xa5', '0xa9')
>>> chr(a),chr(b)
('¥', '©')
# \xNN 十六进制单字节格式
>>> s1='\xa5\xa9'
# \uNNNN Unicode 双字节格式
>>> s2='\u00a5\u00a9'
>>> s1,s2
('¥©', '¥©')
>>> len(s1),len(s2)
(2, 2)
# \UNNNNNNNN Unicode 四字节格式
>>> s3='\U000000a5'
>>> s3
'¥'

1.3 编码和解码非ASCII文本

描述

# 项目 描述
1 \xNN 2位16进制,表示单字节,用\x转义,表示ASCII文本的unicode
2 \uNNNN 4位16进制,表示双字节,用\u转义,表示非ASCII文本的unicode
3 \UNNNNNNNN 8位16进制,表示四字节,用\U转义,表示非ASCII文本的unicode
4 单字节 1个字节2位16进制
5 ASCII编码 范围[0-127]
6 非ASCII编码 范围大于127
7 gbk编码 1个汉字2个字节,1个字节2位16进制
8 utf-8编码 1个汉字3个字节,1个字节2位16进制
9 unicode文本 python3.x的字符串str为unicode文本
10 ord© 获取字符c的unicode编码,为整数
11 hex(i) 获取整数i的16进制
12 hex(ord©) 获取字符c的unicode编码的16进制,用\u转义
13 str.encode(encoding) 根据编码名encoding将字符串str编码为原始字节,返回bytes类型数据,b或B开头
14 bytes.decode(encoding) 根据编码名encoding将原始字节解码为字符串,返回str类型数据
15 bytes(str,encoding) 根据编码名encoding将字符串str编码为原始字节,返回bytes类型数据,b或B开头
16 str(bytes,encoding) 根据编码名encoding将原始字节解码为字符串,返回str类型数据

示例

python 复制代码
>>> c1,c2='梯','阅'
# \xNN 16进制单字节, \uNNNN 16进制双字节 , \UNNNNNNNN 16进制四字节
>>> c1_hexstr,c2_hexstr=hex(ord(c1)),hex(ord(c2))
# ord(c)获取c的unicode值,通过hex(i)获取unicode值的16进制
>>> c1_hexstr,c2_hexstr
('0x68af', '0x9605')
# \uNNNN 四位16进制表示的2个字节,1个汉字为2个字节的unicode
# 每个字节的unicode 用\u 转义 原始字节
>>> c1c2='\u68af\u9605'
>>> c1c2
'梯阅'
>>> len(c1c2)
2
# ASCII 范围为[0,127]
>>> c1c2.encode('ascii')
Traceback (most recent call last):
  File "<pyshell#82>", line 1, in <module>
    c1c2.encode('ascii')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
# 通过 编码名 gbk 的码表编码, 1个 汉字为2个字节 ,1个字节为2位16进制
# str.encode(encoding) 根据编码名 将字符串编码为原始字节
>>> c1c2.encode('gbk')
b'\xcc\xdd\xd4\xc4'
>>> '梯阅'.encode('gbk')
b'\xcc\xdd\xd4\xc4'
# 通过 编码名 utf-8 的码表编码,1个 汉字为 3个字节,1个字节为2位16进制
>>> c1c2.encode('utf-8')
b'\xe6\xa2\xaf\xe9\x98\x85'
>>> type(c1c2.encode('utf-8'))
<class 'bytes'>
>>> bytes(c1c2,encoding='utf-8')
b'\xe6\xa2\xaf\xe9\x98\x85'
>>> gbk_c1c2_raw=b'\xcc\xdd\xd4\xc4'
>>> utf8_c1c2_raw=b'\xe6\xa2\xaf\xe9\x98\x85'
>>> len(gbk_c1c2_raw),len(utf8_c1c2_raw)
(4, 6)
# bytes.decode(encoding) 根据编码名 将原始字节解码为字符串
>>> gbk_c1c2_dcd=gbk_c1c2_raw.decode('gbk')
>>> utf8_c1c2_dcd=utf8_c1c2_raw.decode('utf-8')
>>> gbk_c1c2_dcd,utf8_c1c2_dcd
('梯阅', '梯阅')
>>> str(gbk_c1c2_raw,encoding='gbk')
'梯阅'
>>> len(gbk_c1c2_dcd),len(utf8_c1c2_dcd)
(2, 2)
相关推荐
comli_cn7 分钟前
使用清华源安装python包
开发语言·python
赵谨言17 分钟前
基于python 微信小程序的医院就诊小程序
经验分享·python·毕业设计
1.01^100031 分钟前
[1111].集成开发工具Pycharm安装与使用
python·pycharm
HEX9CF32 分钟前
【Django】测试带有 CSRF 验证的 POST 表单 API 报错:Forbidden (CSRF cookie not set.)
python·django·csrf
凡人的AI工具箱1 小时前
每天40分玩转Django:实操多语言博客
人工智能·后端·python·django·sqlite
Py办公羊大侠1 小时前
Excel批量设置行高,Excel表格设置自动换行后打印显示不全,Excel表格设置最合适的行高后打印显示不全,完美解决方案!!!
python·excel·打印·openpyxl·自动换行·显示不全
PieroPc1 小时前
Python tkinter写的《电脑装配单》和 Html版 可打印 可导出 excel 文件
python·html·电脑
Cachel wood2 小时前
Django REST framework (DRF)中的api_view和APIView权限控制
javascript·vue.js·后端·python·ui·django·前端框架
暮色尽染2 小时前
Python 正则表达式
开发语言·python
幽络源小助理2 小时前
Python使用requests_html库爬取掌阅书籍(附完整源码及使用说明)
python·html·python爬虫·爬虫教程·requests_html·爬取书籍·掌阅