Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

目录:

  • 文本特征处理

    • 添加n_gram特征

    • 文本长度规范

  • 文本数据增强:

    • 回译数据增强法

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征 , 如:n-gram特征,

以及对加入特征之后的文本语料进行必要的处理 , 如: 长度规范.

这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征:n个词或字的相邻共现特征,白话:相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例:

复制代码
# * :解包,去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的,也就是等尺寸大小矩阵。

多了截断、少了填充

API:

复制代码
from tensorflow.keras.preprocessing import sequence

# 参数:5:规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

相关推荐
IT_陈寒1 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术3 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12273 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队3 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇3 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师4 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶4 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
阿里云大数据AI技术5 小时前
阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手
运维·人工智能
Larcher5 小时前
从零搭建 MCP 服务——让 AI 拥有无限扩展能力
人工智能·程序员