Day31_【 NLP _1.文本预处理 _(1)文本处理的基本方法】

概述

文本预处理:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求。

主要环节包括如下:

  • 文本处理基本方法(本文)

  • 文本张量表示方法

  • 文本语料数据分析

  • 文本特征处理

  • 数据增强方法

文本处理基本方式

  • 分词

  • 词性标注

  • 命名实体识别

一、分词

含义:将连续的字序列按照一定规范分割为词序列

​​​​​​​ ​​​​​​​

作用:nlp处理人类语言,而词是作为人类语言的基本单元,分词也就是nlp的领域的重要基础环节

使用:jieba分词工具,做最好的python中文分词组件

  1. jieba

安装:

复制代码
pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

特性:

1.支持多种分词模式(本质是分词的颗粒度)

(1)精确模式:尽可能按照语义进行分割 (常用)

复制代码
jieba.lcut(content, cut_all=False)

(2)全模式:尽可能分割出所有成词的词语,不能消除歧义

复制代码
jieba.lcut(content, cut_all=True)

(3)搜索引擎模式:在精确模式基础上,对长词再次切分

复制代码
jieba.lcut_for_search(content)

2.支持中文繁体分词

  • 中国香港, 台湾地区的繁体文本进行分词
  • api = 精确模式

3.支持用户自定义词典

  • 词典格式: 词语、词频(可省)、词性(可省),用空格隔开,顺序不可颠倒。

  • 词性参照词性对照表

    jieba.load_userdict("./userdict.txt")
    mydata2 = jieba.lcut(sentence, cut_all=False)

二、词性标注

含义:基于分词后,对词汇的词性进行标注

API:

复制代码
import jieba.posseg as pseg
pseg.lcut("text")

返回的是:装有pair元组的列表 , 每个pair元组中装有:词汇、词性

jieba词性标注对照表

  • a 形容词

  • ad 副形词

  • ag 形容词性语素

  • an 名形词

  • b 区别词

  • c 连词

  • d 副词

  • df

  • dg 副语素

  • e 叹词

  • f 方位词

  • g 语素

  • h 前接成分

  • i 成语

  • j 简称略称

  • k 后接成分

  • l 习用语

  • m 数词

  • mg

  • mq 数量词

  • n 名词

  • ng 名词性语素

  • nr 人名

  • nrfg

  • nrt

  • ns 地名

  • nt 机构团体名

  • nz 其他专名

  • o 拟声词

  • p 介词

  • q 量词

  • r 代词

  • rg 代词性语素

  • rr 人称代词

  • rz 指示代词

  • s 处所词

  • t 时间词

  • tg 时语素

  • u 助词

  • ud 结构助词 得

  • ug 时态助词

  • uj 结构助词 的

  • ul 时态助词 了

  • uv 结构助词 地

  • uz 时态助词 着

  • v 动词

  • vd 副动词

  • vg 动词性语素

  • vi 不及物动词

  • vn 名动词

  • vq

  • x 非语素词

  • y 语气词

  • z 状态词

  • zg

三、命名实体识别

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

含义:识别语料中的命名实体

命名实体:人名、地名、机构名、时间、日期、货币、百分比

相关推荐
ThinkPet5 分钟前
【AI】大模型知识入门扫盲以及SpringAi快速入门
java·人工智能·ai·大模型·rag·springai·mcp
汽车仪器仪表相关领域5 分钟前
双组分精准快检,汽修年检利器:MEXA-324M汽车尾气测量仪项目实战全解
大数据·人工智能·功能测试·测试工具·算法·机器学习·压力测试
renhongxia15 分钟前
从文本到仿真:多智能体大型语言模型(LLM)自动化化学工艺设计工作流程
人工智能·语言模型·自动化
AI工具指南18 分钟前
实测教程:三种主流AI生成PPT工作流详解
人工智能·ppt
DO_Community18 分钟前
技术解码:Character.ai 如何实现大模型实时推理性能 2 倍提升
人工智能·算法·llm·aigc·moe·aiter
Kakaxiii19 分钟前
【2024ACL】Mind Map :知识图谱激发大型语言模型中的思维图谱
人工智能·语言模型·知识图谱
leo__52020 分钟前
基于A星算法的MATLAB路径规划实现
人工智能·算法·matlab
AAD5558889925 分钟前
基于YOLO11的自然景观多类别目标检测系统 山脉海洋湖泊森林建筑物桥梁道路农田沙漠海滩等多种景观元素检测识别
人工智能·目标检测·计算机视觉
数据分享者25 分钟前
新闻文本智能识别数据集:40587条高质量标注数据推动自然语言处理技术发展-新闻信息提取、舆情分析、媒体内容理解-机器学习模型训练-智能分类系统
人工智能·自然语言处理·数据挖掘·easyui·新闻文本
___波子 Pro Max.27 分钟前
LLM大语言模型定义与核心特征解析
人工智能·语言模型·自然语言处理