《昇思25天学习打卡营第6天|onereal》

Vision Transformer(ViT)简介

近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。

ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。

模型结构

ViT模型的主体结构是基于Transformer模型的Encoder部分(部分结构顺序有调整,如:Normalization的位置与标准Transformer不同),

以上是今天第6天的学习内容,依然是逐行运行代码,最后生成打卡印迹,不明白功能。先这样跟着走吧。

相关推荐
醉暮天33 分钟前
4.25学习——文件上传之00截断
学习
blackA_4 小时前
数据库MySQL学习——day4(更多查询操作与更新数据)
数据库·学习·mysql
梁下轻语的秋缘6 小时前
每日c/c++题 备战蓝桥杯(P1049 [NOIP 2001 普及组] 装箱问题)
c语言·c++·学习·蓝桥杯
球求了6 小时前
C++:继承机制详解
开发语言·c++·学习
时光追逐者7 小时前
MongoDB从入门到实战之MongoDB快速入门(附带学习路线图)
数据库·学习·mongodb
一弓虽7 小时前
SpringBoot 学习
java·spring boot·后端·学习
genggeng不会代码8 小时前
用于协同显著目标检测的小组协作学习 2021 GCoNet(总结)
学习
搞机小能手9 小时前
六个能够白嫖学习资料的网站
笔记·学习·分类
The_cute_cat11 小时前
25.4.22学习总结
学习
冰茶_12 小时前
.NET MAUI 发展历程:从 Xamarin 到现代跨平台应用开发框架
学习·microsoft·微软·c#·.net·xamarin