Day31_【 NLP _1.文本预处理 _(1)文本处理的基本方法】

概述

文本预处理:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求。

主要环节包括如下:

  • 文本处理基本方法(本文)

  • 文本张量表示方法

  • 文本语料数据分析

  • 文本特征处理

  • 数据增强方法

文本处理基本方式

  • 分词

  • 词性标注

  • 命名实体识别

一、分词

含义:将连续的字序列按照一定规范分割为词序列

​​​​​​​ ​​​​​​​

作用:nlp处理人类语言,而词是作为人类语言的基本单元,分词也就是nlp的领域的重要基础环节

使用:jieba分词工具,做最好的python中文分词组件

  1. jieba

安装:

复制代码
pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

特性:

1.支持多种分词模式(本质是分词的颗粒度)

(1)精确模式:尽可能按照语义进行分割 (常用)

复制代码
jieba.lcut(content, cut_all=False)

(2)全模式:尽可能分割出所有成词的词语,不能消除歧义

复制代码
jieba.lcut(content, cut_all=True)

(3)搜索引擎模式:在精确模式基础上,对长词再次切分

复制代码
jieba.lcut_for_search(content)

2.支持中文繁体分词

  • 中国香港, 台湾地区的繁体文本进行分词
  • api = 精确模式

3.支持用户自定义词典

  • 词典格式: 词语、词频(可省)、词性(可省),用空格隔开,顺序不可颠倒。

  • 词性参照词性对照表

    jieba.load_userdict("./userdict.txt")
    mydata2 = jieba.lcut(sentence, cut_all=False)

二、词性标注

含义:基于分词后,对词汇的词性进行标注

API:

复制代码
import jieba.posseg as pseg
pseg.lcut("text")

返回的是:装有pair元组的列表 , 每个pair元组中装有:词汇、词性

jieba词性标注对照表

  • a 形容词

  • ad 副形词

  • ag 形容词性语素

  • an 名形词

  • b 区别词

  • c 连词

  • d 副词

  • df

  • dg 副语素

  • e 叹词

  • f 方位词

  • g 语素

  • h 前接成分

  • i 成语

  • j 简称略称

  • k 后接成分

  • l 习用语

  • m 数词

  • mg

  • mq 数量词

  • n 名词

  • ng 名词性语素

  • nr 人名

  • nrfg

  • nrt

  • ns 地名

  • nt 机构团体名

  • nz 其他专名

  • o 拟声词

  • p 介词

  • q 量词

  • r 代词

  • rg 代词性语素

  • rr 人称代词

  • rz 指示代词

  • s 处所词

  • t 时间词

  • tg 时语素

  • u 助词

  • ud 结构助词 得

  • ug 时态助词

  • uj 结构助词 的

  • ul 时态助词 了

  • uv 结构助词 地

  • uz 时态助词 着

  • v 动词

  • vd 副动词

  • vg 动词性语素

  • vi 不及物动词

  • vn 名动词

  • vq

  • x 非语素词

  • y 语气词

  • z 状态词

  • zg

三、命名实体识别

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

含义:识别语料中的命名实体

命名实体:人名、地名、机构名、时间、日期、货币、百分比

相关推荐
菩提树下的凡夫9 分钟前
激光应用1---影响激光光斑大小和功率密度的因素
人工智能
AI-Ming13 分钟前
注意力机制拓展-大模型知识点(程序员转行AI大模型学习)
人工智能·学习
Mintopia14 分钟前
agent-cli 哪家强?别只看“能跑”,要看“能交付”
人工智能
kishu_iOS&AI16 分钟前
PyCharm 结合 uv 进行 AI 大模型开发
人工智能·pycharm·大模型·uv
币之互联万物19 分钟前
LLM 偏好算法解析:大语言模型内容收录倾向与 NEOXGEO 技术底蕴
人工智能·算法·语言模型
Mintopia23 分钟前
衡量AI水平的六个核心指标:别再只看跑分了
人工智能
咚咚王者23 分钟前
人工智能之语言领域 自然语言处理 第十七章 多模态预训练模型
人工智能·自然语言处理
盼小辉丶26 分钟前
PyTorch实战(36)——PyTorch自动机器学习
人工智能·pytorch·深度学习·自动机器学习
郝学胜-神的一滴27 分钟前
PyTorch 张量基础:零张量/一张量/指定值张量全解析
人工智能·pytorch·python
7yewh27 分钟前
Dense / 全连接层 / Gemm — 综合全局特征理解与运用
网络·人工智能·python·深度学习·cnn