NLP入门——数据预处理:编码规范化

编码规范化

在计算机中,我们需要将字符与字节序列之间建立起映射关系,这个过程被称为编码。有许多不同的编码方式,例如 ASCII、UTF-8、UTF-16 和 GBK 等。这些编码方式会将每个字符编码为一个或多个字节,以便于在计算机、网络和其他设备之间进行存储和传输。

Unicode是一种字符集,它为每个字符、符号和表情符分配了一个唯一的码位(整数),它与许多不同的编码方式结合使用。

编解码

英文数据处理特点:首字母大写、词与词间用空格分隔、标点符号与词汇写在一起。

中文数据处理与英文不同,没有分词,所有词之间没有空格

数据处理的目的在于去除脏数据,保留干净可用的部分,其中编解码是关键环节。

chr() 是 Python 中的一个内置函数,它将一个整数(Unicode 码位)转换为一个字符

python 复制代码
>>> chr(a)
'a'

chr() 函数的逆函数是 ord(),它将一个字符(长度为 1 的字符串)转换为一个整数(Unicode 码位)

python 复制代码
>>> ord('A')
65

编码标准

用不同的编码标准会得到不同的字节序列,尽管在文本中显示的是同一个字

python 复制代码
>>> "可".encode("gbk")
b'\xbf\xc9'
>>> "可".encode("utf-8")
b'\xe5\x8f\xaf'
>>> a = "可".encode("utf-8")
>>> b = "可".encode("gbk")
>>> a == b
False

将其解码后与Python默认的Unicode字符集对应

python 复制代码
>>> a.decode("utf-8") == '可'
True

1.处理编解码错误

检测文本是否以UTF-8编码。

python 复制代码
#encoding: utf-8

import sys

def handle(sl1,sl2,rl1,rl2):

    ens = "\n".encode("utf-8")
    with open(sl1,"rb") as fs1,open(sl2,"rb") as fs2,open(rl1
    ,"wb") as fr1,open(rl2,"wb") as fr2:
        for l1, l2 in zip(fs1,fs2): #按行读
            t1 ,t2 = l1.strip(), l2.strip() #去除每行首、尾的回车、制表、空格
            if t1 and t2: #如果t1、t2 非空
                try: #解码
                    t1, t2 = t1.decode("utf-8"), t2.decode("utf-8")
                except Exception as e: #decode方法抛出异常,说明原文不满足u8编码
                    t1 = t2 = "" #异常置空
                if t1 and t2: #以U8再编码
                    fr1.write(t1.encode("utf-8"))
                    fr1.write(ens) #将strip()过的回车添加上,将行隔开
                    fr2.write(t2.encode("utf-8"))
                    fr2.write(ens)

if __name__=="__main__":
    handle(*sys.argv[1:]) 

执行后,在命令行使用wc -l fname 查看行数,统计因编解码错误而被丢掉的行。

2.编码统一

HTML数据清洗

在网页上爬取的数据编码方式可能不同,例如使用Python的html库:

python 复制代码
>>> import html
>>> html.escape("&")
'&'

escape()函数的逆函数是unescape(),会将HTML标记转化为Unicode字符。

python 复制代码
>>> html.unescape("&amp")
'&'
python 复制代码
#encoding: utf-8

import sys
from html import unescape

def handle(srcf,rsf):

    ens = "\n".encode("utf-8")
    with open(srcf,"rb") as frd, open(rsf,"wb") as fwrt:
        for line in frd:
            tmp = line.strip()
            if tmp:
                tmp = unescape(tmp.decode("utf-8"))
                fwrt.write(tmp.encode("utf-8"))
                fwrt.write(ens)

if __name__=="__main__":
    handle(*sys.argv[1:])

md5sum 是一个 Linux 和 Unix 操作系统中的命令行工具,用于计算和验证文件的 MD5 校验和。MD5 是一种哈希函数,它可以将任意长度的数据转换为一个固定长度的哈希值。

通过对比数据清洗前后的md5sum值,可以看到文件是否发生变化。

全角转为半角

全角字符与半角字符的unicode编码不一致

python 复制代码
>>> a = 'a'
>>> b = 'a'
>>> a == b
False
>>> ord(a),ord(b)
(97, 65345)

他们的差值即是95345-97=65248

python 复制代码
>>> chr(ord(b)-65248) == a
True

full2half.py

python 复制代码
#encoding: utf-8
import sys

def D2S(istr): #全角转半角
    
    rs = []
    for c in istr:
        num = ord(c)
        if num == 12288:
            rs.append(" ") #如果检测到全角空格,则添加一个半角空格
        elif (num > 65280) and (num < 65375):
			rs.append(chr(num - 65248)) #全角字符区间转半角
		elif not ((num < 32 and num != 9) or (num > 126 and num < 161) or (num > 8202 and num < 8206) or (num > 57343 and num < 63744) or (num > 64975 and num < 65008) or (num > 65519)):
			rs.append(c)  #除去私有定义Unicode字符
            
    return ''.join(rs) ##将迭代对象连接成字符串
        
def handle(srcf,rsf):
    
    ens="\n".encode("utf-8")
    with open(srcf,"rb") as frd,open(rsf,"wb") as fwrt:
        for line in frd:
            tmp = line.strip()
            if tmp:
                tmp = D2S(tmp.decode("utf-8")).encode("utf-8")
                fwrt.write(tmp)
            fwrt.write(ens)
            
if __name__ == "__main__":
    handle(sys.argv[1],sys.argv[2]) 

Unicode规范化

docs python unicodedata

1.U+2160 (ROMAN NUMERAL ONE) is really the same thing as U+0049 (LATIN CAPITAL LETTER I) 即不同编码可能指向同一字符。

  1. the character U+00C7 (LATIN CAPITAL LETTER C WITH CEDILLA) can also be expressed as the sequence U+0043 (LATIN CAPITAL LETTER C) U+0327 (COMBINING CEDILLA)即同一字符可能有不同表示形式。

使用unicodedata.normalize(form, unistr)进行规范化

python 复制代码
#encoding: utf-8

import sys
from unicodedata import normalize

def handle(srcf,rsf,form="NFKC"):

    ens = "\n".encode("utf-8")
    with open(srcf,"rb") as frd, open(rsf,"wb") as fwrt:
        for line in frd:
            tmp = line.strip()
            if tmp:
                fwrt.write(normalize(form,tmp.decode("utf-8")).encode("utf-8"))
                fwrt.write(ens)

if __name__=="__main__":
    handle(*sys.argv[1:])
相关推荐
Terry Cao 漕河泾15 分钟前
SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World
人工智能·计算机视觉·3d·目标跟踪
多猫家庭19 分钟前
宠物毛发对人体有什么危害?宠物空气净化器小米、希喂、352对比实测
人工智能·宠物
AI完全体23 分钟前
AI小项目4-用Pytorch从头实现Transformer(详细注解)
人工智能·pytorch·深度学习·机器学习·语言模型·transformer·注意力机制
AI知识分享官24 分钟前
智能绘画Midjourney AIGC在设计领域中的应用
人工智能·深度学习·语言模型·chatgpt·aigc·midjourney·llama
憨憨小白38 分钟前
函数的高级应用
开发语言·python·青少年编程·少儿编程
程序小旭42 分钟前
Objects as Points基于中心点的目标检测方法CenterNet—CVPR2019
人工智能·目标检测·计算机视觉
阿利同学1 小时前
yolov8多任务模型-目标检测+车道线检测+可行驶区域检测-yolo多检测头代码+教程
人工智能·yolo·目标检测·计算机视觉·联系 qq1309399183·yolo多任务检测·多检测头检测
CV-King1 小时前
计算机视觉硬件知识点整理(三):镜头
图像处理·人工智能·python·opencv·计算机视觉
惟长堤一痕1 小时前
医学数据分析实训 项目三 关联规则分析作业--在线购物车分析--痹症方剂用药规律分析
python·数据分析
Alluxio官方1 小时前
Alluxio Enterprise AI on K8s FIO 测试教程
人工智能·机器学习