RNN与NLP

为这个教程的笔记:

RNN模型与NLP应用(1/9):数据处理基础_哔哩哔哩_bilibili

数据处理基础:

不能用标量表示类别特征。

可以用one-hot编码把一些类别特征变成数值向量。

处理文本信息(text -> sequence):

  1. Tokenization(string->list):把文本变成列表,一个token是一个单词或者一个字符等。

  2. 统计词频(建立一个dict):把每个单词映射到一个正整数(字典的key,value,key的个数叫词汇量)。把词频按从高到低排序,然后把词频换成index,从1开始数,然后保留常用词,去掉低频词(可能是人名或拼写错误),这样可以在ont-hot编码时向量的维度变小,减小计算量。

  3. sequences:进行完第二步后,每个单词映射到一个正整数,这样一个文本用一个正整数的列表表示。

  4. 如果有必要,进行one-hot编码:编码后向量的维度就是第二步字典中的词汇量。

  5. 将列表对齐(alignment):每段文本信息的长度不一定一样,可以采取的一种措施是取一个固定值8,当长度小于8时,用0进行填充,当长度大于8时,只选取最后8个。

相关推荐
恶霸不委屈21 分钟前
重新定义健康监护!基于DeepSeek的人体生理状况智能检测装置技术解析
人工智能·python·deepseek·生理监测
訾博ZiBo21 分钟前
AI日报 - 2025年4月12日
人工智能
b***251122 分钟前
动力电池自动点焊机:新能源汽车制造的智能焊接利器
大数据·人工智能
__Benco35 分钟前
OpenHarmony子系统开发 - 热管理(五)
人工智能·harmonyos
2201_7549184139 分钟前
机器学习--词向量转换
人工智能·机器学习
飞凌嵌入式40 分钟前
飞凌嵌入式T527核心板正式发布OpenHarmony4.1系统,实现从芯片架构到操作系统的全链路国产化
人工智能·嵌入式硬件·嵌入式·飞凌嵌入式
吾鳴1 小时前
扣子(coze)实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解
人工智能
iTiro1 小时前
LIME深度解析:如何让复杂的机器学习模型“开口说话”?
人工智能
Gofree1 小时前
Pytorch实现mnist手写数字识别
人工智能