RNN与NLP - 技术栈

RNN与NLP

ThreeS_tones2024-01-22 8:12

为这个教程的笔记：

数据处理基础：

不能用标量表示类别特征。

可以用one-hot编码把一些类别特征变成数值向量。

处理文本信息（text -> sequence）：

Tokenization（string->list）：把文本变成列表，一个token是一个单词或者一个字符等。
统计词频（建立一个dict）：把每个单词映射到一个正整数（字典的key,value，key的个数叫词汇量）。把词频按从高到低排序，然后把词频换成index，从1开始数，然后保留常用词，去掉低频词（可能是人名或拼写错误），这样可以在ont-hot编码时向量的维度变小，减小计算量。
sequences：进行完第二步后，每个单词映射到一个正整数，这样一个文本用一个正整数的列表表示。
如果有必要，进行one-hot编码：编码后向量的维度就是第二步字典中的词汇量。
将列表对齐（alignment）：每段文本信息的长度不一定一样，可以采取的一种措施是取一个固定值8，当长度小于8时，用0进行填充，当长度大于8时，只选取最后8个。