《昇思25天学习打卡营第6天|onereal》

Vision Transformer(ViT)简介

近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。

ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。

模型结构

ViT模型的主体结构是基于Transformer模型的Encoder部分(部分结构顺序有调整,如:Normalization的位置与标准Transformer不同),

以上是今天第6天的学习内容,依然是逐行运行代码,最后生成打卡印迹,不明白功能。先这样跟着走吧。

相关推荐
专注于大数据技术栈19 分钟前
java学习--Collection的迭代器
java·python·学习
气概9 小时前
法奥机器人学习使用
学习·junit·机器人
Qhumaing10 小时前
C++学习:【PTA】数据结构 7-1 实验7-1(最小生成树-Prim算法)
c++·学习·算法
好大哥呀10 小时前
Java Web的学习路径
java·前端·学习
梦雨羊12 小时前
Base-NLP学习
人工智能·学习·自然语言处理
丝斯201112 小时前
AI学习笔记整理(42)——NLP之大规模预训练模型Transformer
人工智能·笔记·学习
小猪佩奇TONY12 小时前
Linux 内核学习(14) --- linux x86-32 虚拟地址空间
linux·学习
副露のmagic13 小时前
更弱智的算法学习 day28
学习
ha204289419413 小时前
Linux操作系统学习记录之---TcpSocket
linux·网络·c++·学习
凉、介14 小时前
深入 QEMU Guest Agent:虚拟机内外通信的隐形纽带
c语言·笔记·学习·嵌入式·虚拟化