transformer与神经网络

一.神经网络

1.卷积神经CNN:适合处理图像,计算机视觉领域

2.循环神经RNN:存储序列数据,记住过去的信息应用到当前处理过程中,序列不能太长

3.长短时记忆网络LSTM:特殊的RNN,RNN的改进版本,能够更好捕捉长距离依赖关系

4.transformer

(1)并行计算

(2)捕捉长距离依赖

(3)可扩展性

(4)灵活性和效果

二.transformer工作原理

1.原理图

2.Transformer模型的生成过程可以分为以下4****个步骤:

(1)分词(Tokenization):token大模型中的最基本的处理单元

1)把汉字拆成积木(从前 / 国王 / 女儿)

(2)词嵌入(Embedding):矩阵计算

(3)注意力机制(Attention Mechanism):捕捉词之间的关联程度

1) 编码器处理:分析问题,用注意力划重点(国王和女儿的关系等)

2) 解码器处理:边编故事边查表,用注意力确保连贯

(4)最终的内容生成(Content Generation):输出结果

相关推荐
2202_756749691 小时前
06 基于sklearn的机械学习-欠拟合、过拟合、正则化、逻辑回归
人工智能·python·深度学习·机器学习·计算机视觉·逻辑回归·sklearn
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现路口车辆速度的追踪识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉·c#·视觉检测
赵英英俊2 小时前
Python day34
人工智能·python·深度学习
lishaoan773 小时前
实现RNN(一): SimpleRNN
人工智能·rnn·深度学习
小拇指~6 小时前
神经网络的基础
人工智能·深度学习·神经网络
一碗白开水一9 小时前
【YOLO系列】YOLOv12详解:模型结构、损失函数、训练方法及代码实现
人工智能·深度学习·yolo·计算机视觉
CoovallyAIHub9 小时前
轻量?智能?协同?你选的标注工具,到底有没有帮你提效?
深度学习·算法·计算机视觉
zzywxc78710 小时前
PyTorch分布式训练:从入门到精通
前端·javascript·人工智能·深度学习·react.js·技术栈深潜计划
Virgil13910 小时前
【DL学习笔记】各种卷积操作总结(深度可分离、空洞、转置、可变形)
笔记·深度学习·学习