transformer与神经网络

一.神经网络

1.卷积神经CNN:适合处理图像,计算机视觉领域

2.循环神经RNN:存储序列数据,记住过去的信息应用到当前处理过程中,序列不能太长

3.长短时记忆网络LSTM:特殊的RNN,RNN的改进版本,能够更好捕捉长距离依赖关系

4.transformer

(1)并行计算

(2)捕捉长距离依赖

(3)可扩展性

(4)灵活性和效果

二.transformer工作原理

1.原理图

2.Transformer模型的生成过程可以分为以下4****个步骤:

(1)分词(Tokenization):token大模型中的最基本的处理单元

1)把汉字拆成积木(从前 / 国王 / 女儿)

(2)词嵌入(Embedding):矩阵计算

(3)注意力机制(Attention Mechanism):捕捉词之间的关联程度

1) 编码器处理:分析问题,用注意力划重点(国王和女儿的关系等)

2) 解码器处理:边编故事边查表,用注意力确保连贯

(4)最终的内容生成(Content Generation):输出结果

相关推荐
yiyu07161 小时前
3分钟搞懂深度学习AI:梯度下降:迷雾中的下山路
人工智能·深度学习
CoovallyAIHub2 小时前
Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!
深度学习·算法·计算机视觉
vivo互联网技术3 小时前
ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果
人工智能·python·深度学习
OpenBayes贝式计算3 小时前
边看、边听、边说,MiniCPM-0-4.5 全双工全模态模型;Pan-Cancer scRNA-Seq 涵盖三种生物学状态单细胞转录数据集
人工智能·深度学习·机器学习
CoovallyAIHub3 小时前
速度暴涨10倍、成本暴降6倍!Mercury 2用扩散取代自回归,重新定义LLM推理速度
深度学习·算法·计算机视觉
OpenBayes贝式计算4 小时前
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控
人工智能·深度学习·机器学习
CoovallyAIHub7 小时前
OpenClaw一脚踩碎传统CV?机器终于不再只是看世界
深度学习·算法·计算机视觉
CoovallyAIHub7 小时前
仅凭单目相机实现3D锥桶定位?UNet-RKNet破解自动驾驶锥桶检测难题
深度学习·算法·计算机视觉
Narrastory2 天前
明日香 - Pytorch 快速入门保姆级教程(一)
人工智能·pytorch·深度学习