实现RNN(一): SimpleRNN

要看如何用 keras实现RNN,我们来看一个简单的例子 (只是为了理解keras实现 RNN然后通过Excel加深我们的理解): 分类两个句子 (只有有限的3个词)。通过这个例子,我们可以更快的理解输出:

from keras.preprocessing.text import one_hot

from keras.preprocessing.sequence import pad_sequences

from keras.models import Sequential

from keras.layers import Dense

from keras.layers import Flatten

from keras.layers.recurrent import SimpleRNN

from keras.layers.embeddings import Embedding

from keras.layers import LSTM

import numpy as np

初始化文档并编码单词:

define documents

docs = ['very good','very bad']

define class labels

labels = [1,0]

from collections import Counter

counts = Counter()

for i,review in enumerate(docs):

counts.update(review.split())

words = sorted(counts, key=counts.get, reverse=True)

vocab_size=len(words)

word_to_int = {word: i for i, word in enumerate(words, 1)}

encoded_docs = []

for doc in docs:

encoded_docs.append([word_to_int[word] for word in doc.split()])

填充文档到最大长度2个单词---这是保持一致,以便所有的输入相同大小:

pad documents to a max length of 2 words

max_length = 2

padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='pre')

print(padded_docs)

编译模型

SimpleRNN函数的输入形状应该是 (时间步数,每个时间步的特征数)。另外,通常RNN使用tanh激活函数。下面的代码指明输入的形状为(2,1)因为每一个输入基于两个时间步每一时间步只有一列特征。

unroll=True indicates that we are considering previous time steps:

define the model

embed_length=1

max_length=2

model = Sequential()

model.add(SimpleRNN(1,activation='tanh', return_sequences=False,recurrent_

initializer='Zeros',input_shape=(max_length,embed_length),unroll=True))

model.add(Dense(1, activation='sigmoid'))

compile the model

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])

summarize the model

print(model.summary())

SimpleRNN(1,) 表示隐藏层有一个神经元。 return_sequences

为 false因为我们不返回任何输出序列,它是简单的输出:

一旦模型被编译,我们继续拟合模型,如下 :

model.fit(padded_docs.reshape(2,2,1),np.array(labels).reshape(max_

length,1),epochs=500)

注意,我们已经改变形状 padded_docs。因为拟合进我们要转换训练数据集到如下格式: {data size, number of time steps,features per time step}。而且,标签应是数组形式,因为最后的全链接层希望输入数组。

核实RNN的输出

现在我们已经拟合了模型,我们用 Excel计算核实一下我们上面创建的模型。注意我们取输入为原始编码{1,2,3}---实践中我们没有取原始编码,而是独热编码或为输入创建Embeddings。我们取原始编码只是为了将keras输出与Excel手工计算比较。model.layers 指明模型中的层,且 weights给我们理解与模型相关的层:

model.weights 指给我们模型里与权相关的名字:

model.get_weights() 给了我们模型里的权的值:

注意,权是有顺序的,即第一个权值对应于kernel:0。换句话,它与 wxh一样 , wxh是与输入相关的权*。*

recurrent_kernel:0 与 whh一样,是前一时间步隐藏层与当前时间步隐藏层相关的权。 bias:0 是与输入相关的偏置。dense_2/kernel:0 是why---即,隐藏层与输出层相关的权。 dense_2/bias:0 是隐藏层与输出层相关的偏置。我们为输入[1,3]证实一下预测:

padded_docs[0].reshape(1,2,1)

import numpy as np

model.predict(padded_docs[0].reshape(1,2,1))

因为输入[1,3]的预测是0.53199,我们用 Excel证实一下相同的结果 :

两个时间步的输入值如下:

输入和权的矩阵乘计算如下:

现在计算完矩阵乘,我们计算时间步0的隐藏层的值:

时间步1的隐藏层的值计算如下 :

tanh(时间步1的隐藏层的值× 与隐藏层相关的权重 (whh) + 上一隐藏层的值 )

我们先计算tanh函数的内部:

我们计算时间步1最后隐藏层的值:

一旦计算了最后隐藏层的值,把它传给sigmoid层,所以最后输出计算如下:

从Excel得到的最后输出与 keras的输出一样,所以证实了我们前面的公式:

相关推荐
Slow菜鸟5 小时前
AI学习篇(三) | AI效率工具指南(2026年)
人工智能·学习
北京软秦科技有限公司6 小时前
AI审核如何助力合规取证?IACheck打造环境检测报告电子存证与法律风险防控新路径
大数据·人工智能
qq_359716236 小时前
openpi使用过程中相关问题
人工智能·深度学习·机器学习
minhuan6 小时前
医疗AI智能体:从数据到关怀人文设计:告别冰冷精准,构建有温度的诊疗交互.131
人工智能·ai智能体·智能体的人文设计·医疗ai人文设计·构建医疗ai智能体
Promise微笑7 小时前
驾驭AI引用:Geo优化中的内容评分机制与实战策略深度解析
人工智能
ai生成式引擎优化技术7 小时前
全球唯一四元结构底层架构问世:TSPR-WEB-LLM-HIC v2.0 终结大模型投毒与幻觉的终极技术范式
人工智能
阿钱真强道7 小时前
08 从 MLP 到 LeNet:为什么一个神经元不够?
深度学习·神经网络·机器学习·mlp·决策边界
听你说327 小时前
伊萨推出 ROBBI 360 协作机器人焊接工作站 简化自动化焊接部署流程
人工智能·机器人·自动化
weixin_408099677 小时前
【实战对比】在线 OCR 识别 vs OCR API 接口:从个人工具到系统集成该怎么选?
图像处理·人工智能·后端·ocr·api·图片文字识别·文字识别ocr