vit

四口鲸鱼爱吃盐

BMVC2023 | 多样化高层特征以提升对抗迁移性论文链接GitHub链接本文 “Diversifying the High-level Features for better Adversarial Transferability” 提出多样化高级特征（DHF）方法，利用 DNNs 参数冗余，在梯度计算时对高层特征随机变换并与良性样本特征混合，提升对抗样本迁移性。在 ImageNet 数据集实验表明，DHF 能有效提升基于动量攻击的迁移性，在基于输入变换的攻击中表现更优，攻击防御模型时也显著优于基线方法。

飞火流星02027

BERT、T5、ViT 和 GPT-3 架构概述及代表性应用这些模型分别在自然语言处理和计算机视觉领域取得了显著进展，推动了深度学习技术的发展。这些模型在各自领域推动了技术边界，为实际应用提供了高效、灵活的解决方案。

深度学习｜MAE技术全景图：自监督学习的“掩码魔法“如何重塑AI基础深度学习（Deep Learning）无疑是当今人工智能领域基础中的基础。从图像识别到自然语言处理（NLP），它在无数任务中展现了卓越性能。例如，在安防监控中，基于深度学习的卷积神经网络（CNN）能够以毫秒级速度识别人脸特征，实现高效的门禁解锁；在医疗领域，深度学习模型通过分析 X 光、CT 或 MRI 图像，辅助医生发现肿瘤或骨折等异常，显著提升诊断效率；在自动驾驶中，它实时检测道路上的行人、车辆和交通标志，确保行车安全。这些成就依赖于强大的计算能力和精心设计的神经网络架构，但也暴露出一个致命的弱点：对

计算机视觉｜Swin Transformer：视觉 Transformer 的新方向在计算机视觉领域的发展历程中，卷积神经网络（CNN）长期占据主导地位。从早期的 LeNet 到后来的 AlexNet、VGGNet、ResNet 等，CNN 在图像分类、目标检测、语义分割等任务中取得了显著成果。然而，CNN 在捕捉全局信息和处理长距离依赖关系方面存在局限性。与此同时，Transformer Architektur 在自然语言处理（NLP）领域表现出色，凭借自注意力机制有效捕捉序列数据中的长距离依赖关系，例如 GPT 系列模型在语言生成和问答系统中的成功应用。

计算机视觉｜ViT详解：打破视觉与语言界限在计算机视觉领域的发展中，卷积神经网络（CNN）一直占据重要地位。自 2012 年 AlexNet 在 ImageNet 大赛中取得优异成绩后，CNN 在图像分类任务中显示出强大能力。随后，VGG、ResNet 等深度网络架构不断出现，推动了图像分类、目标检测、语义分割等任务的性能提升，促进了计算机视觉技术的快速发展。

VisionTransformer（ViT）与CNN卷积神经网络的对比《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】二、机器学习实战专栏【链接】，已更新31期，欢迎关注，持续更新中~~ 三、深度学习【Pytorch】专栏【链接】四、【Stable Diffusion绘画系列】专栏【链接】五、YOLOv8改进专栏【链接】，持续更新中~~ 六、YOLO性能对比专栏【链接】，持续更新中~

西西弗Sisyphus

HunyuanVideo 文生视频模型实践flyfish运行 HunyuanVideo 模型使用文本生成视频的推荐配置（batch size = 1）：

西西弗Sisyphus

Vision Transformer (ViT) 论文的第二句话flyfish原句： “In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place.”

fuhanghang@yeah.net

如何使用自己训练的模型生成注意力热图（模型为DINOv2，基于ViT架构）搞了整整3天，网上的代码试了很多，生成的都是奇怪的二维热图，终于成功，记录一下心路历程要提前安装好gradCam包在网上找的代码，生成的热图都是线性的，很奇怪，把代码贴在下面：

威化饼的一隅

ViT模型技术学习最近多模态模型特别火，模型也越来越小，MiniCPM-2.6只有8B，里面采用的图片编码器是SigLipViT模型，一起从头学习ViT和Transformer！本文记录一下学习过程，所以是自上而下的写，从ViT拆到Transformer。

VIT模型简介ViT（Vision Transformer）是一种基于Transformer架构的视觉模型，它改变了传统卷积神经网络（CNN）在计算机视觉领域的主导地位。ViT 将图像视为一系列的补丁（patches），并通过自注意力机制（self-attention mechanism）来来捕捉全局信息，从而实现了强大的视觉表征学习能力。

ViT算法解读——Transformer在分类任务中的应用论文：An image is worth 16x16 words: Transformers for image recognition at scale 作者：Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly,

翻滚的小@强

LLM动手实践(一): 微调google的bert和vit模型完成文本和图片的分类任务最近大模型比较火热，也正好在公司开始接触这块相关的业务，大模型是未来的趋势，对于研发工程师来讲，是powerful的效能工具，所以想沉淀一些大模型实践相关的笔记来记录自己在使用大模型产品，部署开源大模型解决实际问题或需求，以及fine-tune大模型实现某个功能过程中的所思和所想。

昇思 25 天学习打卡营第 15 天 | mindspore 实现 VisionTransformer 图像分类使用 mindspore 学习神经网络，打卡第 15 天；主要内容也依据 mindspore 的学习记录。

ViT：4 Pruning实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

ViT：3 Compact Architecture大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

uniapp实现微信小程序调用云函数【vue3】本人是从微信开发者工具写原生微信小程序一步一步走来，由于vue3框架的慢慢的步入前端市场，为了不被前端市场遗弃，果断从vue2开始步入vue3的学习，本人习惯在在HBuilder X写uniapp的项目，过去uniapp默认vue2框架，现在可以选择vue3框架了，遇到了一个很大的问题，就是由于cloudfunctions不是在默认的目录结构中，运行到微信开发者工具里面时候，发现cloudfunctions没有一起编译进来，更要命的是原来在vue2里面用的vue.config.js可选的配置文件用于cop

3D医疗图像配准 | 基于Vision-Transformer+Pytorch实现的3D医疗图像配准算法

CV计算机视觉每日开源代码Paper with code速览-2023.11.1精华置顶墙裂推荐！小白如何1个月系统学习CV核心知识：链接点击@CV计算机视觉，关注更多CV干货论文已打包，点击进入—>下载界面