transformer

醒了就刷牙17 小时前
深度学习·分类·transformer
transformer用作分类任务在手写数字图像数据集(例如MNIST数据集)上使用Transformer进行分类任务时,基本的流程和文本分类任务类似,但有一些不同之处,因为MNIST是一个图像分类任务。我们可以将MNIST图像的处理方法适应到Transformer模型中。下面是如何在MNIST数据集上使用Transformer进行手写数字分类的步骤:
deephub3 天前
人工智能·深度学习·transformer·大语言模型·特征提取
LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法随着语言模型(LMs)应用范围的扩大,对用户输入和模型输出中不当内容的检测变得日益重要。每当主要模型供应商发布新模型时,研究人员首先会尝试寻找绕过模型安全限制的方法,使其产生不符合预期的响应。通过Google的搜索可以发现,已有多种方法可以绕过模型的对齐调整,导致模型对不当请求作出响应。另外多家公司已将基于生成式AI的对话系统应用于客户服务等场景,这些系统经常面临提示注入攻击,导致其响应不当请求或超出预定范围的任务。对企业而言,能够检测和分类这些实例至关重要,这可以防止系统被用户轻易操控,特别是在公开部署
宝贝儿好3 天前
人工智能·深度学习·自然语言处理·transformer
【NLP】第七章:Transformer原理及实操看本文前一定一定要先看注意力机制篇章:【NLP】第五章:注意力机制Attention-CSDN博客 和位置编码偏置:【NLP】第六章:位置编码Positional Encoding-CSDN博客 本文对这俩部分的讲解是掠过的!因为注意力机制是Transformer的核心,position encoding又太难,所以我分别单独开了一个章节来讲透attention和PE。尽量不要有太多的知识断点,你理解起来就比较容易。
Struart_R3 天前
人工智能·深度学习·计算机视觉·transformer·视频生成
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读目录一、前置知识1、Cogview2、Cogview23、Cogvideo二、CogvideoX概述三、CogVideoX架构
AI程序猿人3 天前
人工智能·pytorch·深度学习·自然语言处理·大模型·transformer·llms
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力这些机制是GPT-4、Llama等大型语言模型(LLMs)的核心组件。通过理解这些注意力机制,我们可以更好地把握这些模型的工作原理和应用潜力。
lalahappy4 天前
论文阅读·深度学习·transformer
Swin transformer 论文阅读记录 & 代码分析该篇文章,是我解析 Swin transformer 论文原理(结合pytorch版本代码)所记,图片来源于源paper或其他相应博客。
赵钰老师4 天前
pytorch·python·深度学习·目标检测·机器学习·cnn·transformer
遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。随着小卫星星座的普及,对地观测已具备3次以上的全球覆盖能力,遥感影像也不断被更深入的应用于矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估中。最近借助深度学习方法,遥感影像自动地物识别取得了令人印象深刻的结果。深度卷积网络采用“端对端”的特征学习,通过
通信仿真实验室4 天前
人工智能·深度学习·自然语言处理·bert·transformer
BERT模型入门(1)BERT的基本概念BERT是Bidirectional Encoder Representations from Transformers的首字母简写,中文意思是:Transformer的双向编码器表示。它是谷歌发布的最先进的嵌入模型。BERT在许多NLP任务中提供了更好的结果,如问答、文本生成、句子分类等,从而在NLP领域取得了重大突破。BERT成功的一个主要原因在于它是一个基于上下文的嵌入模型,而其他流行的嵌入模型,如word2vec,则是上下文无关的。
西西弗Sisyphus4 天前
lora·大模型·transformer·qwen2-vl
使用Gradio编写大模型ollama客户端 -界面版flyfish文末包含完整源码图例 sqlite3 是 Python 内置的一个库,用于与 SQLite 数据库进行交互。SQLite 是一个轻量级的数据库,它不需要单独的服务器进程或系统的配置,非常适合于嵌入式应用和小型项目。
凳子花❀4 天前
人工智能·神经网络·cnn·transformer
CNN和Transfomer介绍CNN(卷积神经网络)TransformerTransformer是一种基于自注意力机制(Self - Attention Mechanism)的深度学习架构。它主要由多头注意力层(Multi - Head Attention)、前馈神经网络层(Feed - Forward Neural Network)和一些归一化层(Normalization Layers)等组成。
凳子花❀4 天前
rnn·yolo·cnn·lstm·transformer
CNN、RNN、LSTM和Transformer之间的区别和联系CNN和Transformer之间的区别和联系,以及自注意力机制和Transformer结构的详细介绍请查看:CNN和Transfomer介绍。
qq7422349845 天前
pytorch·深度学习·transformer
从零搭建CBAM、SENet、STN、transformer、mobile_vit、simple_vit、vit模型(Pytorch代码示例)CBAM(Convolutional Block Attention Module)是一种注意力机制,可以在现有的卷积神经网络(CNN)中插入,以增强模型对重要特征的关注。CBAM 通过同时考虑通道维度和空间维度的注意力,提高了模型的表征能力和性能。以下是 CBAM 的一些关键特点和实现细节:
一个平凡的IT农民工5 天前
conda·transformer
如何在window 使用 conda 环境下载大模型最近开始学习 变形金刚,最大的问题就是 huggingface 无法访问,无论是翻墙还是通过本地镜像网站HF-Mirror,然后再通过git下载都很慢,影响学习进度,后面看了如下文章,Huggingface配置镜像_huggingface镜像-CSDN博客 尝试在conda环境下下载大模型,起码能下载成功,看到下载进度条,具体操作如下: 运行 Anaconda Prompt (miniconda3) 安装 pip install -U huggingface_hub -i https://pypi.tun
猫先生Mr.Mao5 天前
人工智能·语言模型·aigc·transformer·业界资讯·agi
AIGC月刊 | 技术可及,顺势而为(2024.10月第六期)【魔方AI新视界】〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕本文作者:猫先生原文地址:AIGC月刊 | 技术可及,顺势而为(2024.10月第六期)【魔方AI新视界】
通信仿真实验室5 天前
人工智能·深度学习·自然语言处理·bert·transformer
BERT模型入门(2)BERT的工作原理如名称所示,BERT(来自Transformer的双向编码器表示)是基于Transformer模型。我们可以将BERT视为只有编码器部分的Transformer。
cv2016_DL6 天前
算法·ocr·transformer
ocr中CTC解码相关1.C++带有转置2.C++没有转置3.python 简单版取最大索引4.python 复杂版
Eshin_Ye8 天前
笔记·学习·transformer·示例代码
transformer学习笔记-自注意力机制(2)经过上一篇transformer学习笔记-自注意力机制(1)原理学习,这一篇对其中的几个关键知识点代码演示:
MYT_flyflyfly8 天前
人工智能·深度学习·transformer
LRM-典型 Transformer 在视觉领域的应用,单个图像生成3D图像https://yiconghong.me/LRM第一个大型重建模型(LRM),它可以在5秒内从单个输入图像预测物体的3D模型。LRM采用了高度可扩展的基于transformer的架构,具有5亿个可学习参数,可以直接从输入图像中预测神经辐射场(NeRF)。
rommel rain8 天前
语言模型·transformer
KeyFormer:使用注意力分数压缩KV缓存Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference
deephub9 天前
人工智能·深度学习·神经网络·语言模型·transformer
Differential Transformer: 通过差分注意力机制提升大语言模型性能Transformer模型已经成为大语言模型(LLMs)的标准架构,但研究表明这些模型在准确检索关键信息方面仍面临挑战。今天介绍一篇名叫Differential Transformer的论文,论文的作者观察到一个关键问题:传统Transformer模型倾向于过分关注不相关的上下文信息,这种"注意力噪声"会影响模型的性能。