技术栈
vit
mex_wayne
4 天前
自监督
·
vit
·
dinov3
·
gram ancher
·
rope-box
基础学习(15): dinov3
DINO 系列(尤其 DINOv2)的一大优势是:自监督学出来的特征既能做全局语义(分类/检索),又能做局部密集任务(分割/匹配/深度)。但作者指出:当你把模型、数据、训练时长都继续放大时,会出现一个“已知但没彻底解决”的问题——dense feature map 在长训练/大模型时会退化(变噪、变糊、结构性崩坏),导致密集任务能力受损。DINOv3 的核心贡献之一就是专门把这个坑填了:提出 Gram anchoring 来“钉住”密集特征质量,避免塌陷
大江东去浪淘尽千古风流人物
10 天前
深度学习
·
3d
·
transformer
·
vit
·
手部重建
·
mano
【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析
HaMeR(Hand Mesh Recovery)是 UC Berkeley 提出的全 Transformer 架构单目 3D 手部重建方法,采用 ViT-Huge(32层、1280维、16头)作为视觉骨干,配合 6 层跨注意力 Transformer 解码器直接回归 MANO 参数模型的手部姿态(6D旋转表示)、形状(10维 β\betaβ)和相机参数。结合对抗训练与多数据集混合策略,HaMeR 在 FreiHAND、HO-3D 等主流基准上显著超越现有方法,并在 Ego-Exo4D Challenge
这是谁的博客?
14 天前
ai
·
transformer
·
多模态
·
clip
·
视觉语言模型
·
vit
·
llava
多模态大模型技术深度解析:从 CLIP 到 LLaVA 的视觉语言融合原理
本文深入剖析多模态大模型的核心技术体系,涵盖 CLIP 对比语言-图像预训练的架构设计与训练机制、ViT 视觉 Transformer 的图像 Patch 编码原理、LLaVA 视觉语言模型的跨模态投影层设计,以及多模态融合策略对比。通过源码级分析揭示视觉编码器与大语言模型的衔接机制,帮助开发者掌握构建多模态 AI 应用的关键技术。
羊小猪~~
2 个月前
大模型
·
llm
·
nlp
·
多模态
·
多模态大模型
·
vit
·
ai算法
LLM--VIT简介
论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
心 爱心 爱
2 个月前
计算机视觉
·
transformer
·
图像识别
·
vit
·
特征提取
·
图像特征提取
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文精读
论文地址:ICLR 2021 2010 代码地址:https://github.com/google-research/vision_transformer AT SCALE 大规模 IMAGE RECOGNITION 图像识别 AN IMAGE IS WORTH 16X16 WORDS 一图抵 16×16 个词
这张生成的图像能检测吗
3 个月前
人工智能
·
深度学习
·
神经网络
·
计算机视觉
·
注意力机制
·
vit
·
时序模型
(论文速读)PatchTST:通道无关补丁时间序列变压器
论文题目:A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS(一个时间序列相当于64个字:用变压器进行长期预测)
Together_CZ
4 个月前
人工智能
·
深度学习
·
ai
·
transformer
·
vit
·
vit-5
·
面向2020年代中期的视觉
ViT-5: Vision Transformers for The Mid-2020s—— 面向2020年代中期的视觉Transformer
这篇题为《ViT-5:面向2020年代中期的视觉Transformer》的论文,核心研究内容是对经典的视觉Transformer架构进行系统性的现代化升级。其目标并非颠覆性重构,而是通过“组件级”的精细优化,在保留其基础结构的同时,显著提升性能、稳定性和泛化能力。
logic_5
4 个月前
vit
VIT的MLP的个人理解
VIT的多头自注意力机制,是将一个向量分成几段,每段拿去和别的patch做自注意力交互也就是多头,然后将每个头交互后得到的向量再拼接成一个向量,这样的话是在广度上进行交互的,但是作为一个整体没有学习到,因此引入mlp,每个向量在深度上再学习。
盼小辉丶
5 个月前
深度学习
·
计算机视觉
·
transformer
·
vit
视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集(如 JFT-300M )上预训练才能达到最佳性能,这限制了其在数据有限场景下的应用。DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的 ImageNet 数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 P
guoketg
5 个月前
人工智能
·
python
·
深度学习
·
vit
Vision Transformer(ViT)的讲解和面试题目讲解
后续考虑加入ViT-base middle large的解释。目前我已经写了BERT,ResNet的文章,有兴趣的可以点进我的主页去查看。后续会更新Transformer、CLIP、GNN等的文章。
盼小辉丶
5 个月前
深度学习
·
计算机视觉
·
transformer
·
vit
视觉Transformer实战 | Pooling-based Vision Transformer(PiT)详解与实现
Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准的 ViT 架构在处理不同尺度的视觉特征时存在一定局限性。Pooling-based Vision Transformer (PiT) 通过引入池化操作来改进 ViT 架构,使其能够更有效地处理多尺度特征,同时减少计算复杂度。本节将详细介绍 PiT 的技术原理,并使用 PyTorch 从零开始实现 PiT 模型。
四口鲸鱼爱吃盐
1 年前
人工智能
·
深度学习
·
cnn
·
vit
·
对抗攻击
·
迁移攻击
BMVC2023 | 多样化高层特征以提升对抗迁移性
论文链接GitHub链接本文 “Diversifying the High-level Features for better Adversarial Transferability” 提出多样化高级特征(DHF)方法,利用 DNNs 参数冗余,在梯度计算时对高层特征随机变换并与良性样本特征混合,提升对抗样本迁移性。在 ImageNet 数据集实验表明,DHF 能有效提升基于动量攻击的迁移性,在基于输入变换的攻击中表现更优,攻击防御模型时也显著优于基线方法。
飞火流星02027
1 年前
人工智能
·
gpt-3
·
bert
·
t5
·
vit
·
人工智能模型架构
BERT、T5、ViT 和 GPT-3 架构概述及代表性应用
这些模型分别在自然语言处理和计算机视觉领域取得了显著进展,推动了深度学习技术的发展。这些模型在各自领域推动了技术边界,为实际应用提供了高效、灵活的解决方案。
紫雾凌寒
1 年前
人工智能
·
深度学习
·
计算机视觉
·
自监督学习
·
vit
·
视频理解
·
mae
深度学习|MAE技术全景图:自监督学习的“掩码魔法“如何重塑AI基础
深度学习(Deep Learning)无疑是当今人工智能领域基础中的基础。从图像识别到自然语言处理(NLP),它在无数任务中展现了卓越性能。例如,在安防监控中,基于深度学习的卷积神经网络(CNN)能够以毫秒级速度识别人脸特征,实现高效的门禁解锁;在医疗领域,深度学习模型通过分析 X 光、CT 或 MRI 图像,辅助医生发现肿瘤或骨折等异常,显著提升诊断效率;在自动驾驶中,它实时检测道路上的行人、车辆和交通标志,确保行车安全。这些成就依赖于强大的计算能力和精心设计的神经网络架构,但也暴露出一个致命的弱点:对
紫雾凌寒
1 年前
人工智能
·
深度学习
·
计算机视觉
·
transformer
·
vit
·
swintransformer
·
视频理解
计算机视觉|Swin Transformer:视觉 Transformer 的新方向
在计算机视觉领域的发展历程中,卷积神经网络(CNN) 长期占据主导地位。从早期的 LeNet 到后来的 AlexNet、VGGNet、ResNet 等,CNN 在图像分类、目标检测、语义分割等任务中取得了显著成果。然而,CNN 在捕捉全局信息和处理长距离依赖关系方面存在局限性。与此同时,Transformer Architektur 在自然语言处理(NLP)领域表现出色,凭借自注意力机制有效捕捉序列数据中的长距离依赖关系,例如 GPT 系列模型在语言生成和问答系统中的成功应用。
紫雾凌寒
1 年前
人工智能
·
深度学习
·
计算机视觉
·
transformer
·
vit
·
视频理解
计算机视觉|ViT详解:打破视觉与语言界限
在计算机视觉领域的发展中,卷积神经网络(CNN)一直占据重要地位。自 2012 年 AlexNet 在 ImageNet 大赛中取得优异成绩后,CNN 在图像分类任务中显示出强大能力。随后,VGG、ResNet 等深度网络架构不断出现,推动了图像分类、目标检测、语义分割等任务的性能提升,促进了计算机视觉技术的快速发展。
阿_旭
1 年前
人工智能
·
神经网络
·
cnn
·
vit
VisionTransformer(ViT)与CNN卷积神经网络的对比
《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~ 三、深度学习【Pytorch】专栏【链接】 四、【Stable Diffusion绘画系列】专栏【链接】 五、YOLOv8改进专栏【链接】,持续更新中~~ 六、YOLO性能对比专栏【链接】,持续更新中~
西西弗Sisyphus
1 年前
transformer
·
vit
·
hunyuanvideo
HunyuanVideo 文生视频模型实践
flyfish运行 HunyuanVideo 模型使用文本生成视频的推荐配置(batch size = 1):
西西弗Sisyphus
1 年前
深度学习
·
transformer
·
vit
Vision Transformer (ViT) 论文的第二句话
flyfish原句: “In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place.”
fuhanghang@yeah.net
2 年前
transformer
·
热力图
·
vit
·
注意力热图
·
dinov2
如何使用自己训练的模型生成注意力热图(模型为DINOv2,基于ViT架构)
搞了整整3天,网上的代码试了很多,生成的都是奇怪的二维热图,终于成功,记录一下心路历程 要提前安装好gradCam包 在网上找的代码,生成的热图都是线性的,很奇怪,把代码贴在下面: