Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

目录:

  • 文本特征处理

    • 添加n_gram特征

    • 文本长度规范

  • 文本数据增强:

    • 回译数据增强法

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征 , 如:n-gram特征,

以及对加入特征之后的文本语料进行必要的处理 , 如: 长度规范.

这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征:n个词或字的相邻共现特征,白话:相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例:

复制代码
# * :解包,去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的,也就是等尺寸大小矩阵。

多了截断、少了填充

API:

复制代码
from tensorflow.keras.preprocessing import sequence

# 参数:5:规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

相关推荐
zone77391 小时前
001:LangChain的LCEL语法学习
人工智能·后端·面试
程序员鱼皮1 小时前
微软竟然出了免费的 AI 应用开发课?!我已经学上了
人工智能·程序员·ai编程
DevnullCoffe2 小时前
基于 OpenClaw + Pangolinfo API 的 Amazon 价格监控系统:架构设计与最佳实践
人工智能·架构
Baihai_IDP2 小时前
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
人工智能·llm·强化学习
aristotle2 小时前
Openclow安装保姆级教程
人工智能·程序员
明明如月学长2 小时前
从 Subagent 到 Team:Claude Code 把 AI 协同玩明白了
人工智能
叶落阁主2 小时前
揭秘 Happy:如何实现 AI 编程助手输出的实时同步
人工智能·claude·vibecoding
王鑫星2 小时前
Anthropic 把自己发明的协议捐了:MCP 入驻 Linux 基金会,OpenAI 竟然也签了名
人工智能
陈少波AI应用笔记2 小时前
OpenClaw安全实测:4种攻击方式与防护指南
人工智能
小锋java12342 小时前
【技术专题】嵌入模型与Chroma向量数据库 - Chroma 集合查询操作
人工智能