Day31_【 NLP _1.文本预处理 _(1)文本处理的基本方法】

概述

文本预处理:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求。

主要环节包括如下:

  • 文本处理基本方法(本文)

  • 文本张量表示方法

  • 文本语料数据分析

  • 文本特征处理

  • 数据增强方法

文本处理基本方式

  • 分词

  • 词性标注

  • 命名实体识别

一、分词

含义:将连续的字序列按照一定规范分割为词序列

​​​​​​​ ​​​​​​​

作用:nlp处理人类语言,而词是作为人类语言的基本单元,分词也就是nlp的领域的重要基础环节

使用:jieba分词工具,做最好的python中文分词组件

  1. jieba

安装:

复制代码
pip install jieba -i https://mirrors.aliyun.com/pypi/simple/

特性:

1.支持多种分词模式(本质是分词的颗粒度)

(1)精确模式:尽可能按照语义进行分割 (常用)

复制代码
jieba.lcut(content, cut_all=False)

(2)全模式:尽可能分割出所有成词的词语,不能消除歧义

复制代码
jieba.lcut(content, cut_all=True)

(3)搜索引擎模式:在精确模式基础上,对长词再次切分

复制代码
jieba.lcut_for_search(content)

2.支持中文繁体分词

  • 中国香港, 台湾地区的繁体文本进行分词
  • api = 精确模式

3.支持用户自定义词典

  • 词典格式: 词语、词频(可省)、词性(可省),用空格隔开,顺序不可颠倒。

  • 词性参照词性对照表

    jieba.load_userdict("./userdict.txt")
    mydata2 = jieba.lcut(sentence, cut_all=False)

二、词性标注

含义:基于分词后,对词汇的词性进行标注

API:

复制代码
import jieba.posseg as pseg
pseg.lcut("text")

返回的是:装有pair元组的列表 , 每个pair元组中装有:词汇、词性

jieba词性标注对照表

  • a 形容词

  • ad 副形词

  • ag 形容词性语素

  • an 名形词

  • b 区别词

  • c 连词

  • d 副词

  • df

  • dg 副语素

  • e 叹词

  • f 方位词

  • g 语素

  • h 前接成分

  • i 成语

  • j 简称略称

  • k 后接成分

  • l 习用语

  • m 数词

  • mg

  • mq 数量词

  • n 名词

  • ng 名词性语素

  • nr 人名

  • nrfg

  • nrt

  • ns 地名

  • nt 机构团体名

  • nz 其他专名

  • o 拟声词

  • p 介词

  • q 量词

  • r 代词

  • rg 代词性语素

  • rr 人称代词

  • rz 指示代词

  • s 处所词

  • t 时间词

  • tg 时语素

  • u 助词

  • ud 结构助词 得

  • ug 时态助词

  • uj 结构助词 的

  • ul 时态助词 了

  • uv 结构助词 地

  • uz 时态助词 着

  • v 动词

  • vd 副动词

  • vg 动词性语素

  • vi 不及物动词

  • vn 名动词

  • vq

  • x 非语素词

  • y 语气词

  • z 状态词

  • zg

三、命名实体识别

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

含义:识别语料中的命名实体

命名实体:人名、地名、机构名、时间、日期、货币、百分比

相关推荐
@不误正业9 小时前
鸿蒙小艺智能体开放平台实战-接入系统级AI-Agent能力
人工智能·华为·harmonyos
月诸清酒9 小时前
47-260429 AI 科技日报 (HappyHorse 1.0 登顶文本转视频模型排行榜)
人工智能
byoass9 小时前
智巢AI知识库深度解析:企业文档管理从大海捞针到精准狙击的进化之路
开发语言·网络·人工智能·安全·c#·云计算
掘金一周9 小时前
你们觉得房贷多少,没有压力 | 沸点周刊 4.30
前端·人工智能·后端
美狐美颜SDK开放平台9 小时前
多场景美颜SDK解决方案:直播APP(iOS/安卓)开发接入详解
android·人工智能·ios·音视频·美颜sdk·第三方美颜sdk·短视频美颜sdk
桜吹雪10 小时前
Langchain.js官方文档:构建具备按需加载技能的 SQL 助手
javascript·人工智能·node.js
ting945200010 小时前
深入解析 Social Fetch 机制:原理、架构、应用场景、实战落地与性能优化全攻略
人工智能·性能优化·架构
阿瑞说项目管理10 小时前
2026 实战入门指南:企业 Agent 到底能解决哪些工作问题?
大数据·人工智能·agent·智能体·企业级ai
ZOOOOOOU10 小时前
云边端协同架构下,门禁权限引擎的离线决策与策略续存实现
大数据·人工智能·架构
han_10 小时前
一篇看懂国内外主流大模型:GPT、Claude、Gemini、DeepSeek、通义千问有什么区别?
前端·人工智能·llm