【深度学习】RNN循环神经网络的原理

sentiment analysis,根据评价来判断为好评还是差评。例如I hate this boring movie,每个单词都用一个张量[100]进行表示,整句话就可以用张量[5, 100]进行表示。每个单词经过线性层操作之后(w和b的shape为[100, 2]),与线性层相连接提取特征,抽取高层特征,会得到一个张量[2],经过加和计算可以得到张量[5, 2],进而得到概率值P(pos|x)判断评论的好坏属性。

但是这样的方法存在问题,当句子太长的时候,[w,b]的参数太多。这时候我们可以采用权值共享的方法,把所有的[w, b]用同一个值进行处理,这样会大大减少参数量。

而且没有一个上下语境信息,我们不能一个一个的单词进行处理,而需要看整体的句子,需要持续的协调一致的张量(consistent tensor),存储统一的语境信息。首先,初始化h0,第一个单词不仅输入输入的特征向量 "I",还输入初始值h0的特征向量;第二个单词,输入 "hate"的同时,也输入上一时刻的语境信息 h1;第三个单词,输入 "this"的同时,也输入上一时刻的语境信息 h2。

简化之后,可以得到如果输入特征为[5, 3, 100],一句话有5个单词,有三个句子batch,每个单词用100维的特征向量进表示,输入一句话的时候shape为[3, 100],然后进行不断自我更新,自我更新机制取决于上一时刻的输出和当前输入。

展开之后可以得到:

如何进行训练RNN呢?

相关推荐
AI营销实验室7 分钟前
原圈科技如何以多智能体赋能AI营销内容生产新范式
人工智能
视***间10 分钟前
智驱万物,视联未来 —— 视程空间以 AI 硬科技赋能全场景智能革新
人工智能·边缘计算·视程空间·ai算力开发板
一个java开发29 分钟前
mcp demo 智能天气服务:经纬度预报与城市警报
人工智能
阿里云大数据AI技术31 分钟前
OmniThoughtV:面向多模态深度思考的高质量数据蒸馏
人工智能
jkyy201435 分钟前
AI健康医疗开放平台:企业健康业务的“新基建”
大数据·人工智能·科技·健康医疗
hy156878641 分钟前
coze编程-工作流-起起起---废(一句话生成工作流)
人工智能·coze·自动编程
brave and determined44 分钟前
CANN训练营 学习(day8)昇腾大模型推理调优实战指南
人工智能·算法·机器学习·ai实战·昇腾ai·ai推理·实战记录
Fuly10241 小时前
MCP协议的简介和简单实现
人工智能·langchain
焦耳加热1 小时前
湖南大学/香港城市大学《ACS Catalysis》突破:微波热冲击构筑异质结,尿素电氧化性能跃升
人工智能·科技·能源·制造·材料工程
这张生成的图像能检测吗1 小时前
(论文速读)基于迁移学习的大型复杂结构冲击监测
人工智能·数学建模·迁移学习·故障诊断·结构健康监测·传感器应用·加权质心算法