transformer

盼小辉丶11 小时前
深度学习·transformer·模型微调
Transformer实战(27)——参数高效微调(Parameter Efficient Fine-Tuning,PEFT)微调已经成为人工智能领域中一种流行的建模范式,尤其是在迁移学习中。在之前的学习中,所有模型都是基于更新所有参数的方式进行的。因此,可以称为全微调 (Full Fine-Tuning) (也称为全模型微调或全参数微调)。在本节中,我们将介绍部分微调策略。随着大语言模型 (Large Language Model, LLM) 参数的不断增加,微调和推理的成本变得极其高昂。全参数微调需要更新所有参数,并为每个任务单独保存大模型,但这一过程在内存和运行时间方面都非常昂贵。例如 BERT 有 3 亿个参数,T5 有
高洁012 天前
深度学习·算法·aigc·transformer·知识图谱
具身智能-普通LLM智能体与具身智能:从语言理解到自主行动 (2)具身智能-普通LLM智能体与具身智能:从语言理解到自主行动 (2) 三、多智能体结构 案例:百度文心大模型的企业知识问答系统
人工智能技术咨询.3 天前
人工智能·transformer
具身智能-普通LLM智能体与具身智能:从语言理解到自主行动三、多智能体结构 案例:百度文心大模型的企业知识问答系统#人工智能/具身智能/VLA/大模型/AI
AI模块工坊3 天前
人工智能·深度学习·计算机视觉·transformer
CVPR 即插即用 | 当RetNet遇见ViT:一场来自曼哈顿的注意力革命,中科院刷新SOTA性能榜!标题: RMT: Retentive Networks Meet Vision Transformers
小女孩真可爱3 天前
语言模型·分类·transformer
大模型学习记录(二)------Transform文本分类目录一、什么是Transformer1. 传统模型(如 RNN)的困境2. Transformer 的解决方案
盼小辉丶3 天前
pytorch·深度学习·计算机视觉·transformer
视觉Transformer实战 | Token-to-Token Vision Transformer(T2T-ViT)详解与实现Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准的 ViT 存在一些局限性,如需要大规模预训练数据、对局部结构建模不足等。Token-to-Token ViT (T2T-ViT) 通过引入渐进式分词过程改进了原始 ViT,使其能够在中小型数据集上取得更好的性能。本节将详细介绍 T2T-ViT 的技术原理,并使用 PyTorch 从零开始实现 T2T-ViT。
阿十六3 天前
人工智能·深度学习·transformer
OUC AI Lab 第七章:ViT & Swin Transformervit的流程图如下所示 transformer输入的二维的[batch,seq,emb],也就是批次,语句长度,每个字被映射成的向量。 而要想在cv领域也使用transformer,整体的思路是 1 将输入图像分为不同大小的patches 假设输入的图像大小为224*224*3,那么如果我们想要划分为的patches是16*16的形状,那么显然一共会有14*14=196个patches,然后我们还想要每个patches映射为786维的token(注意这里的token长度是自己定义的) 如何划分为patch
极客BIM工作室3 天前
gpt·bert·transformer
从Transformer的Encoder与Decoder,到BERT和GPT的独立王国在自然语言处理(NLP)的技术版图中,Transformer架构无疑是一座里程碑。它的Encoder(编码器)与Decoder(解码器)模块不仅在机器翻译等任务中协同作战,更衍生出了Encoder-only的BERT和Decoder-only的GPT这样的“独立王者”。今天,我们就来深度拆解它们的架构、作用,以及BERT和GPT如何各自在“理解”与“生成”的赛道上封神。
共绩算力3 天前
人工智能·架构·transformer·共绩算力
【共绩 AI 小课堂】Class 5 Transformer架构深度解析:从《Attention Is All You Need》论文到现代大模型Transformer是什么? Transformer是2017年Google提出的革命性深度学习架构,它彻底改变了自然语言处理(NLP)领域的游戏规则。今天我们将深入探讨这篇被誉为"改变AI历史"的论文——《Attention Is All You Need》,理解GPT、BERT和ChatGPT等现代大模型的底层工作原理。
田里的水稻4 天前
pytorch·tensorflow·transformer
NN_Transformer、Pytorch、TensorFlow和ONNX的名词辨析那么四者的区别如下: 名称 类型 作用 举例🔄 它们的关系:
冬虫夏草19934 天前
人工智能·transformer
在transformer中使用househoulder reflection(mirror transform)替代layernorm用注意力机制中学习到的Value向量作为反射基准,通过Householder反射来"归一化"特征表示,从而避免使用LayerNorm。.从复杂度上来讲,其实要比layernorm要高,但是更简明和几何化。
Paraverse_徐志斌4 天前
人工智能·pytorch·python·bert·transformer
基于 PyTorch + BERT 意图识别与模型微调意图识别(Intent Detection)是自然语言处理(Natural Language Processing,NLP)的一个子模块。意图识别说大白话就是:能够理解提炼用户输入的内容最终目的、意图是什么,能够从用户的自然语言中理解他到底想要做什么!所以通常我们会先进行意图分类定义,就那绩效业务来说,一般会定义:
AndrewHZ5 天前
图像处理·人工智能·python·算法·transformer·cv·图像去雾
【图像处理基石】图像去雾算法入门(2025年版)在计算机视觉领域,雾天等恶劣天气会导致图像对比度下降、细节模糊,严重影响后续的目标检测、图像分割等任务。图像去雾算法作为解决这一问题的核心技术,已广泛应用于自动驾驶、监控安防、遥感航拍等场景。本文将从基础原理出发,系统梳理传统去雾算法与深度学习去雾算法的核心思想、实现流程,并附上Python实操代码,帮助大家快速掌握图像去雾技术。
池央5 天前
人工智能·深度学习·transformer
化繁为简,点石成金:实战CANN TBE构建Transformer高性能融合注意力算子在之前的文章中,我们聚焦于顶层的“AI框架”如何通过CANN顺利运行在底层的“Ascend IP”上。而今天,我们的征途将深入这张图的腹地——直抵CANN的核心。我们将不再仅仅是应用CANN的“图引擎(GE)”来执行整个模型,而是要亲自扮演“算子开发者”的角色,利用“TBE(Tensor Boost Engine)”为昇腾硬件量身定制一个全新的、不存在于标准库中的高性能“融合算子”,并用“AscendCL”对其进行精准调用。这,是一场真正深入到异构计算架构灵魂的探索之旅。
没头脑的男大6 天前
人工智能·深度学习·transformer
Unet+Transformer脑肿瘤分割检测承接上册的Unet的脑肿瘤分割检测,我们采用Transformer+Unet检测更加的准确在这里我把Transformer模块加入到U-Net里面,相比于单单的U-Net模块我这里
AI即插即用6 天前
人工智能·pytorch·深度学习·计算机视觉·视觉检测·transformer
即插即用涨点系列(十四)2025 SOTA | Efficient ViM:基于“隐状态混合SSD”与“多阶段融合”的轻量级视觉 Mamba 新标杆为了方便大家在CV科研和项目中高效涨点,我创建并维护了一个即插即用模块的GitHub代码仓库。仓库里不仅有:
高洁017 天前
深度学习·算法·aigc·transformer·知识图谱
国内外具身智能VLA模型深度解析(2)国外典型具身智能VLA架构国内外具身智能VLA模型深度解析(2) 国外典型具身智能VLA架构 2. Physical Intelligence(PI)—— π0模型 1)模型整体架构 2)模型训练 3. Figure AI —— Helix模型 4. 英伟达 —— GR00T N1
一水鉴天7 天前
架构·transformer·状态模式·公共逻辑
整体设计 全面梳理复盘 之40 M3 统摄三层 AI 的动态运营社区(Homepage)设计(突出核心统摄体 “M3”、关键架构 “三层 AI”、最终输出 “动态运营社区 Homepage”,体现 “设计共识 + 技术闭环” 的讨论成果,覆盖从架构提出到终局收敛的完整逻辑)
盼小辉丶7 天前
深度学习·语言模型·bert·transformer
Transformer实战(26)——通过领域适应提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过领域适应技术将模型性能提升到超越普通训练流程的水平。领域适应是一种提高 Transformer 模型性能的方法,由于大语言模型是在通用和多样化的文本上进行训练的,因此在应用于特定领域时,可能会存在一定的差异,我们可能需要根据特定的应用领域调整这些语言模型,并考虑多种因素。
一水鉴天8 天前
人工智能·架构·transformer
整体设计 全面梳理复盘 之38 3+1 工具套件(思维工具为根)设计共识暨 DevOps 融合落地路径明确核心主体 “3+1 工具套件”,突出 “思维工具为根” 的核心定位,体现 “设计共识 + DevOps 落地” 的双重成果