Day31_【 NLP _1.文本预处理 _(1)文本处理的基本方法】

概述

文本预处理:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求。

主要环节包括如下:

  • 文本处理基本方法(本文)

  • 文本张量表示方法

  • 文本语料数据分析

  • 文本特征处理

  • 数据增强方法

文本处理基本方式

  • 分词

  • 词性标注

  • 命名实体识别

一、分词

含义:将连续的字序列按照一定规范分割为词序列

​​​​​​​ ​​​​​​​

作用:nlp处理人类语言,而词是作为人类语言的基本单元,分词也就是nlp的领域的重要基础环节

使用:jieba分词工具,做最好的python中文分词组件

  1. jieba

安装:

复制代码
pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

特性:

1.支持多种分词模式(本质是分词的颗粒度)

(1)精确模式:尽可能按照语义进行分割 (常用)

复制代码
jieba.lcut(content, cut_all=False)

(2)全模式:尽可能分割出所有成词的词语,不能消除歧义

复制代码
jieba.lcut(content, cut_all=True)

(3)搜索引擎模式:在精确模式基础上,对长词再次切分

复制代码
jieba.lcut_for_search(content)

2.支持中文繁体分词

  • 中国香港, 台湾地区的繁体文本进行分词
  • api = 精确模式

3.支持用户自定义词典

  • 词典格式: 词语、词频(可省)、词性(可省),用空格隔开,顺序不可颠倒。

  • 词性参照词性对照表

    jieba.load_userdict("./userdict.txt")
    mydata2 = jieba.lcut(sentence, cut_all=False)

二、词性标注

含义:基于分词后,对词汇的词性进行标注

API:

复制代码
import jieba.posseg as pseg
pseg.lcut("text")

返回的是:装有pair元组的列表 , 每个pair元组中装有:词汇、词性

jieba词性标注对照表

  • a 形容词

  • ad 副形词

  • ag 形容词性语素

  • an 名形词

  • b 区别词

  • c 连词

  • d 副词

  • df

  • dg 副语素

  • e 叹词

  • f 方位词

  • g 语素

  • h 前接成分

  • i 成语

  • j 简称略称

  • k 后接成分

  • l 习用语

  • m 数词

  • mg

  • mq 数量词

  • n 名词

  • ng 名词性语素

  • nr 人名

  • nrfg

  • nrt

  • ns 地名

  • nt 机构团体名

  • nz 其他专名

  • o 拟声词

  • p 介词

  • q 量词

  • r 代词

  • rg 代词性语素

  • rr 人称代词

  • rz 指示代词

  • s 处所词

  • t 时间词

  • tg 时语素

  • u 助词

  • ud 结构助词 得

  • ug 时态助词

  • uj 结构助词 的

  • ul 时态助词 了

  • uv 结构助词 地

  • uz 时态助词 着

  • v 动词

  • vd 副动词

  • vg 动词性语素

  • vi 不及物动词

  • vn 名动词

  • vq

  • x 非语素词

  • y 语气词

  • z 状态词

  • zg

三、命名实体识别

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

含义:识别语料中的命名实体

命名实体:人名、地名、机构名、时间、日期、货币、百分比

相关推荐
草莓熊Lotso11 分钟前
C++ 二叉搜索树(BST)完全指南:从概念原理、核心操作到底层实现
java·运维·开发语言·c++·人工智能·经验分享·c++进阶
Dfreedom.12 分钟前
大模型微调技术全景解析:从基础理论到工程实践
人工智能·大模型微调
m0_4626052217 分钟前
第N5周:Pytorch文本分类入门
人工智能·pytorch·分类
喜欢吃豆25 分钟前
Parquet 范式:大语言模型训练数据格式优化的基础解析
人工智能·语言模型·自然语言处理·大模型·parquet
AI松子66626 分钟前
PyTorch-混合精度训练(amp)
人工智能·pytorch·python
MDLZH27 分钟前
Pytorch性能调优简单总结
人工智能·pytorch·python
GIS数据转换器1 小时前
基于GIS的智慧旅游调度指挥平台
运维·人工智能·物联网·无人机·旅游·1024程序员节
沧澜sincerely2 小时前
数据挖掘概述
人工智能·数据挖掘
数数科技的数据干货3 小时前
从爆款到厂牌:解读游戏工业化的业务持续增长道路
运维·数据库·人工智能
amhjdx6 小时前
星巽短剧以科技赋能影视创新,构建全球短剧新生态!
人工智能·科技