Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

l12345sy2025-09-30 11:29

文本特征处理
- 添加n_gram特征
- 文本长度规范

文本数据增强:
- 回译数据增强法

回译数据增强法作用：对样本进行扩充，可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征 , 如:n-gram特征,

以及对加入特征之后的文本语料进行必要的处理 , 如: 长度规范.

这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征：n个词或字的相邻共现特征，白话：相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例：

复制代码

# * ：解包，去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的，也就是等尺寸大小矩阵。

多了截断、少了填充

API：

复制代码

from tensorflow.keras.preprocessing import sequence

# 参数：5：规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法作用：对样本进行扩充，可处理样本分布不均问题