vit

紫雾凌寒24 天前
人工智能·深度学习·计算机视觉·自监督学习·vit·视频理解·mae
深度学习|MAE技术全景图:自监督学习的“掩码魔法“如何重塑AI基础深度学习(Deep Learning)无疑是当今人工智能领域基础中的基础。从图像识别到自然语言处理(NLP),它在无数任务中展现了卓越性能。例如,在安防监控中,基于深度学习的卷积神经网络(CNN)能够以毫秒级速度识别人脸特征,实现高效的门禁解锁;在医疗领域,深度学习模型通过分析 X 光、CT 或 MRI 图像,辅助医生发现肿瘤或骨折等异常,显著提升诊断效率;在自动驾驶中,它实时检测道路上的行人、车辆和交通标志,确保行车安全。这些成就依赖于强大的计算能力和精心设计的神经网络架构,但也暴露出一个致命的弱点:对
紫雾凌寒1 个月前
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
计算机视觉|Swin Transformer:视觉 Transformer 的新方向在计算机视觉领域的发展历程中,卷积神经网络(CNN) 长期占据主导地位。从早期的 LeNet 到后来的 AlexNet、VGGNet、ResNet 等,CNN 在图像分类、目标检测、语义分割等任务中取得了显著成果。然而,CNN 在捕捉全局信息和处理长距离依赖关系方面存在局限性。与此同时,Transformer Architektur 在自然语言处理(NLP)领域表现出色,凭借自注意力机制有效捕捉序列数据中的长距离依赖关系,例如 GPT 系列模型在语言生成和问答系统中的成功应用。
紫雾凌寒1 个月前
人工智能·深度学习·计算机视觉·transformer·vit·视频理解
计算机视觉|ViT详解:打破视觉与语言界限在计算机视觉领域的发展中,卷积神经网络(CNN)一直占据重要地位。自 2012 年 AlexNet 在 ImageNet 大赛中取得优异成绩后,CNN 在图像分类任务中显示出强大能力。随后,VGG、ResNet 等深度网络架构不断出现,推动了图像分类、目标检测、语义分割等任务的性能提升,促进了计算机视觉技术的快速发展。
阿_旭1 个月前
人工智能·神经网络·cnn·vit
VisionTransformer(ViT)与CNN卷积神经网络的对比《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~ 三、深度学习【Pytorch】专栏【链接】 四、【Stable Diffusion绘画系列】专栏【链接】 五、YOLOv8改进专栏【链接】,持续更新中~~ 六、YOLO性能对比专栏【链接】,持续更新中~
西西弗Sisyphus3 个月前
transformer·vit·hunyuanvideo
HunyuanVideo 文生视频模型实践flyfish运行 HunyuanVideo 模型使用文本生成视频的推荐配置(batch size = 1):
西西弗Sisyphus3 个月前
深度学习·transformer·vit
Vision Transformer (ViT) 论文的第二句话flyfish原句: “In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place.”
[email protected]4 个月前
transformer·热力图·vit·注意力热图·dinov2
如何使用自己训练的模型生成注意力热图(模型为DINOv2,基于ViT架构)搞了整整3天,网上的代码试了很多,生成的都是奇怪的二维热图,终于成功,记录一下心路历程 要提前安装好gradCam包 在网上找的代码,生成的热图都是线性的,很奇怪,把代码贴在下面:
威化饼的一隅6 个月前
人工智能·计算机视觉·大模型·transformer·vit·多模态模型·视觉编码器
ViT模型技术学习最近多模态模型特别火,模型也越来越小,MiniCPM-2.6只有8B,里面采用的图片编码器是SigLipViT模型,一起从头学习ViT和Transformer!本文记录一下学习过程,所以是自上而下的写,从ViT拆到Transformer。
qq_423019557 个月前
图像处理·人工智能·vit
VIT模型简介ViT(Vision Transformer)是一种基于Transformer架构的视觉模型,它改变了传统卷积神经网络(CNN)在计算机视觉领域的主导地位。ViT 将图像视为一系列的补丁(patches),并通过自注意力机制(self-attention mechanism)来来捕捉全局信息,从而实现了强大的视觉表征学习能力。
lishanlu1368 个月前
transformer·图像分类·vit
ViT算法解读——Transformer在分类任务中的应用论文:An image is worth 16x16 words: Transformers for image recognition at scale 作者:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly,
翻滚的小@强8 个月前
bert·vit·大模型微调
LLM动手实践(一): 微调google的bert和vit模型完成文本和图片的分类任务最近大模型比较火热,也正好在公司开始接触这块相关的业务,大模型是未来的趋势,对于研发工程师来讲,是powerful的效能工具,所以想沉淀一些大模型实践相关的笔记来记录自己在使用大模型产品,部署开源大模型解决实际问题或需求,以及fine-tune大模型实现某个功能过程中的所思和所想。
comedate8 个月前
python·深度学习·transformer·mindspore·vit·vison
昇思 25 天学习打卡营第 15 天 | mindspore 实现 VisionTransformer 图像分类使用 mindspore 学习神经网络,打卡第 15 天;主要内容也依据 mindspore 的学习记录。
庞德公9 个月前
算法·机器学习·计算机视觉·剪枝·vit
ViT:4 Pruning实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。
庞德公9 个月前
人工智能·深度学习·计算机视觉·transformer·vit
ViT:3 Compact Architecture大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。
rzh55410 个月前
微信小程序·小程序·uni-app·vue3·云函数·vit
uniapp实现微信小程序调用云函数【vue3】本人是从微信开发者工具写原生微信小程序一步一步走来,由于vue3框架的慢慢的步入前端市场,为了不被前端市场遗弃,果断从vue2开始步入vue3的学习,本人习惯在在HBuilder X写uniapp的项目,过去uniapp默认vue2框架,现在可以选择vue3框架了,遇到了一个很大的问题,就是由于cloudfunctions不是在默认的目录结构中,运行到微信开发者工具里面时候,发现cloudfunctions没有一起编译进来,更要命的是原来在vue2里面用的vue.config.js可选的配置文件用于cop
极智视界1 年前
pytorch·深度学习·算法·transformer·vit·智慧医疗·3d医疗配准
3D医疗图像配准 | 基于Vision-Transformer+Pytorch实现的3D医疗图像配准算法
CV511 年前
计算机视觉·数字人·多模态·点云目标检测·vit·伪装目标检测·医学图像分割
CV计算机视觉每日开源代码Paper with code速览-2023.11.1精华置顶墙裂推荐!小白如何1个月系统学习CV核心知识:链接点击@CV计算机视觉,关注更多CV干货论文已打包,点击进入—>下载界面