实现RNN(一): SimpleRNN

要看如何用 keras实现RNN,我们来看一个简单的例子 (只是为了理解keras实现 RNN然后通过Excel加深我们的理解): 分类两个句子 (只有有限的3个词)。通过这个例子,我们可以更快的理解输出:

from keras.preprocessing.text import one_hot

from keras.preprocessing.sequence import pad_sequences

from keras.models import Sequential

from keras.layers import Dense

from keras.layers import Flatten

from keras.layers.recurrent import SimpleRNN

from keras.layers.embeddings import Embedding

from keras.layers import LSTM

import numpy as np

初始化文档并编码单词:

define documents

docs = ['very good','very bad']

define class labels

labels = [1,0]

from collections import Counter

counts = Counter()

for i,review in enumerate(docs):

counts.update(review.split())

words = sorted(counts, key=counts.get, reverse=True)

vocab_size=len(words)

word_to_int = {word: i for i, word in enumerate(words, 1)}

encoded_docs = []

for doc in docs:

encoded_docs.append([word_to_int[word] for word in doc.split()])

填充文档到最大长度2个单词---这是保持一致,以便所有的输入相同大小:

pad documents to a max length of 2 words

max_length = 2

padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='pre')

print(padded_docs)

编译模型

SimpleRNN函数的输入形状应该是 (时间步数,每个时间步的特征数)。另外,通常RNN使用tanh激活函数。下面的代码指明输入的形状为(2,1)因为每一个输入基于两个时间步每一时间步只有一列特征。

unroll=True indicates that we are considering previous time steps:

define the model

embed_length=1

max_length=2

model = Sequential()

model.add(SimpleRNN(1,activation='tanh', return_sequences=False,recurrent_

initializer='Zeros',input_shape=(max_length,embed_length),unroll=True))

model.add(Dense(1, activation='sigmoid'))

compile the model

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])

summarize the model

print(model.summary())

SimpleRNN(1,) 表示隐藏层有一个神经元。 return_sequences

为 false因为我们不返回任何输出序列,它是简单的输出:

一旦模型被编译,我们继续拟合模型,如下 :

model.fit(padded_docs.reshape(2,2,1),np.array(labels).reshape(max_

length,1),epochs=500)

注意,我们已经改变形状 padded_docs。因为拟合进我们要转换训练数据集到如下格式: {data size, number of time steps,features per time step}。而且,标签应是数组形式,因为最后的全链接层希望输入数组。

核实RNN的输出

现在我们已经拟合了模型,我们用 Excel计算核实一下我们上面创建的模型。注意我们取输入为原始编码{1,2,3}---实践中我们没有取原始编码,而是独热编码或为输入创建Embeddings。我们取原始编码只是为了将keras输出与Excel手工计算比较。model.layers 指明模型中的层,且 weights给我们理解与模型相关的层:

model.weights 指给我们模型里与权相关的名字:

model.get_weights() 给了我们模型里的权的值:

注意,权是有顺序的,即第一个权值对应于kernel:0。换句话,它与 wxh一样 , wxh是与输入相关的权*。*

recurrent_kernel:0 与 whh一样,是前一时间步隐藏层与当前时间步隐藏层相关的权。 bias:0 是与输入相关的偏置。dense_2/kernel:0 是why---即,隐藏层与输出层相关的权。 dense_2/bias:0 是隐藏层与输出层相关的偏置。我们为输入[1,3]证实一下预测:

padded_docs[0].reshape(1,2,1)

import numpy as np

model.predict(padded_docs[0].reshape(1,2,1))

因为输入[1,3]的预测是0.53199,我们用 Excel证实一下相同的结果 :

两个时间步的输入值如下:

输入和权的矩阵乘计算如下:

现在计算完矩阵乘,我们计算时间步0的隐藏层的值:

时间步1的隐藏层的值计算如下 :

tanh(时间步1的隐藏层的值× 与隐藏层相关的权重 (whh) + 上一隐藏层的值 )

我们先计算tanh函数的内部:

我们计算时间步1最后隐藏层的值:

一旦计算了最后隐藏层的值,把它传给sigmoid层,所以最后输出计算如下:

从Excel得到的最后输出与 keras的输出一样,所以证实了我们前面的公式:

相关推荐
X.AI6665 分钟前
小米 MiMo‑V2.5‑Pro 上手体验:一款能硬刚 GPT‑5.4 的国产大模型有多强?
人工智能·gpt·开源
peterfei6 分钟前
一个 Tauri + Rust AI 编辑器是怎么同时适配 5 家 AI 大厂的?IfAI v0.4.3 架构拆解
人工智能·算法·架构
思绪无限7 分钟前
YOLOv5至YOLOv12升级:农作物害虫检测系统的设计与实现(完整代码+界面+数据集项目)
人工智能·python·深度学习·目标检测·计算机视觉·yolov12·农作物害虫检测
Java猿_9 分钟前
【无标题】
人工智能
smileNicky11 分钟前
Spring AI系列之集成 Milvus 构建 RAG 智能问答系统
人工智能·spring·milvus
QYR_Jodie13 分钟前
2026-2032期间,全球陶瓷餐具和玻璃器皿市场年复合增长率(CAGR)为2.9%
大数据·人工智能
一只AI打工虾的自我修养16 分钟前
开源大模型本地部署:Ollama vs LocalClaw 选型指南
人工智能·开源
逻辑驱动的ken17 分钟前
Java高频面试考点场景题11
java·深度学习·面试·职场和发展·高效学习
Promise微笑21 分钟前
开关柜局放测试仪选型避坑指南:如何从技术维度保障电力资产安全?
人工智能·安全
微刻时光23 分钟前
影刀RPA:For循环与ForEach循环深度解析与实战指南
人工智能·python·低代码·自动化·rpa·影刀实战