【深度学习】RNN循环神经网络的原理

sentiment analysis,根据评价来判断为好评还是差评。例如I hate this boring movie,每个单词都用一个张量[100]进行表示,整句话就可以用张量[5, 100]进行表示。每个单词经过线性层操作之后(w和b的shape为[100, 2]),与线性层相连接提取特征,抽取高层特征,会得到一个张量[2],经过加和计算可以得到张量[5, 2],进而得到概率值P(pos|x)判断评论的好坏属性。

但是这样的方法存在问题,当句子太长的时候,[w,b]的参数太多。这时候我们可以采用权值共享的方法,把所有的[w, b]用同一个值进行处理,这样会大大减少参数量。

而且没有一个上下语境信息,我们不能一个一个的单词进行处理,而需要看整体的句子,需要持续的协调一致的张量(consistent tensor),存储统一的语境信息。首先,初始化h0,第一个单词不仅输入输入的特征向量 "I",还输入初始值h0的特征向量;第二个单词,输入 "hate"的同时,也输入上一时刻的语境信息 h1;第三个单词,输入 "this"的同时,也输入上一时刻的语境信息 h2。

简化之后,可以得到如果输入特征为[5, 3, 100],一句话有5个单词,有三个句子batch,每个单词用100维的特征向量进表示,输入一句话的时候shape为[3, 100],然后进行不断自我更新,自我更新机制取决于上一时刻的输出和当前输入。

展开之后可以得到:

如何进行训练RNN呢?

相关推荐
syounger8 小时前
KPMG 升级为 SAP 全球战略服务伙伴:以“AI优先 + 云原生”交付可量化转型价值
人工智能
AI浩8 小时前
重新审视视觉Transformer中的[CLS]与Patch Token交互
人工智能·深度学习·transformer
Lun3866buzha8 小时前
基于Centernet改进模型的显微镜图像纤维形态分类识别系统 Hueco_medulada_no_medulada三种纤维类型检测
人工智能·分类·数据挖掘
宇擎智脑科技8 小时前
VibeSurf:开源AI智能浏览器助手的技术解析与实践指南
人工智能·浏览器插件·智能体
量子-Alex8 小时前
【大模型智能体】人工智能宇宙学家 I:自动数据分析的智能体系统
人工智能·数据挖掘·数据分析
这是个栗子8 小时前
AI辅助编程工具(四) - 通义灵码
人工智能·ai·通义灵码
羞儿8 小时前
yolov8的整理与分析,非全新理论创新,而是基于v5融合 YOLOX/YOLOv6/YOLOv7/PPYOLOE 等 SOTA 技术的工程化
人工智能·yolo·目标跟踪·dfl·样本分配策略
llrraa20108 小时前
两张RTX 8000 运行大模型
人工智能
kyle~8 小时前
Opencv---霍夫直线变换(HoughLines)
人工智能·opencv·计算机视觉
Asher阿舍技术站9 小时前
【AI基础学习系列】三、LLM基础知识
人工智能·学习·llm