《昇思25天学习打卡营第6天|onereal》

Vision Transformer(ViT)简介

近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。

ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。

模型结构

ViT模型的主体结构是基于Transformer模型的Encoder部分(部分结构顺序有调整,如:Normalization的位置与标准Transformer不同),

以上是今天第6天的学习内容,依然是逐行运行代码,最后生成打卡印迹,不明白功能。先这样跟着走吧。

相关推荐
yyyyy_abc2 小时前
ceph学习笔记
笔记·ceph·学习
晓梦林2 小时前
ximai靶场学习笔记
android·笔记·学习
nashane2 小时前
HarmonyOS 6学习:外接键盘CapsLock与长截图功能的实战调试与完整解决方案
学习·华为·计算机外设·harmonyos
一口吃俩胖子3 小时前
【脉宽调制DCDC功率变换学习笔记021】时域性能准则
笔记·学习
@杰克成4 小时前
Java学习30
java·开发语言·学习
三品吉他手会点灯4 小时前
C语言学习笔记 - 40.数据类型 - scanf函数的编程规范与非法输入处理
c语言·开发语言·笔记·学习
Bechamz6 小时前
大数据开发学习Day36
大数据·学习
happymaker06267 小时前
SpringBoot学习日记——DAY02(SpringBoot整合Swagger3)
java·spring boot·学习
晓梦林8 小时前
homelab2靶场学习笔记
笔记·学习