Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

目录:

  • 文本特征处理

    • 添加n_gram特征

    • 文本长度规范

  • 文本数据增强:

    • 回译数据增强法

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征 , 如:n-gram特征,

以及对加入特征之后的文本语料进行必要的处理 , 如: 长度规范.

这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征:n个词或字的相邻共现特征,白话:相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例:

复制代码
# * :解包,去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的,也就是等尺寸大小矩阵。

多了截断、少了填充

API:

复制代码
from tensorflow.keras.preprocessing import sequence

# 参数:5:规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

相关推荐
xixixi777772 分钟前
Prompt脱敏——不损失(或尽量少损失)原文本语义和上下文价值的前提下,防止原始敏感数据暴露给模型服务方、潜在的攻击者或出现在模型训练数据中
人工智能·microsoft·ai·大模型·数据安全·提示词·敏感信息
凡泰极客科技3 分钟前
新浪财经专访凡泰极客梁启鸿:金融App的AI落地应避哪些坑
人工智能·金融
量子-Alex4 分钟前
【大模型技术报告】Qwen2-VL技术报告解读
人工智能
得赢科技6 分钟前
2026年料汁定制公司深度评测报告
人工智能
jllllyuz12 分钟前
基于卷积神经网络(CNN)的图像融合方法详解
人工智能·神经网络·cnn
香芋Yu14 分钟前
【深度学习教程——01_深度基石(Foundation)】04_分类问题怎么解?逻辑回归与交叉熵的由来
深度学习·分类·逻辑回归
风流 少年16 分钟前
解决AI画图的最后一公里-Next AI Draw.io MCP实践
人工智能·draw.io
OLOLOadsd12316 分钟前
牛群目标检测新突破:基于YOLOv3-SPP的精准识别与优化策略
人工智能·yolo·目标检测
小鸡吃米…19 分钟前
机器学习 - 贝叶斯定理
人工智能·python·机器学习
esmap22 分钟前
技术解构:ESMAP AI数字孪生赋能传统行业转型的全链路技术方案
人工智能·低代码·ai·架构·编辑器·智慧城市