Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

目录:

  • 文本特征处理

    • 添加n_gram特征

    • 文本长度规范

  • 文本数据增强:

    • 回译数据增强法

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征 , 如:n-gram特征,

以及对加入特征之后的文本语料进行必要的处理 , 如: 长度规范.

这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征:n个词或字的相邻共现特征,白话:相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例:

复制代码
# * :解包,去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的,也就是等尺寸大小矩阵。

多了截断、少了填充

API:

复制代码
from tensorflow.keras.preprocessing import sequence

# 参数:5:规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

相关推荐
简佐义的博客2 分钟前
Genome Biol. IF 9.4 Q1 | ATAC-seq 数据分析实用指南,根据本文就可以构建ATAC生信分析流程了
人工智能
老蒋新思维36 分钟前
陈修超入局:解锁 AI 与 IP 融合的创新增长密码
网络·人工智能·网络协议·tcp/ip·企业管理·知识付费·创客匠人
San30.1 小时前
从代码规范到 AI Agent:现代前端开发的智能化演进
javascript·人工智能·代码规范
DO_Community1 小时前
基于AI Agent模板:快速生成 SQL 测试数据
人工智能·python·sql·ai·llm·ai编程
HeteroCat1 小时前
关于No Chatbot的思考
人工智能
咚咚王者1 小时前
人工智能之数据分析 numpy:第一章 学习链路
人工智能·数据分析·numpy
中杯可乐多加冰1 小时前
数据分析案例详解:基于smardaten实现智慧交通运营指标数据分析展示
人工智能·低代码·数据分析·交通物流·智慧交通·无代码·大屏端
算家计算1 小时前
对标ChatGPT!千问App正式上线:AI应用终局之战正在打响
人工智能·资讯
Justinyh2 小时前
1、CUDA 编程基础
c++·人工智能