transformer

SuasyYi6 小时前
人工智能·python·深度学习·语言模型·transformer
【深度学习】Transformer 的常见的位置编码有哪些Transformer 位置编码(Positional Encoding)主要用于弥补 自注意力机制(Self-Attention) 对位置信息的忽略,常见的方案有以下几种:
AITIME论道10 小时前
人工智能·深度学习·transformer
即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!01ProTransformer: Robustify Transformers via Plug-and-Play Paradigm
Dream25121 天前
人工智能·深度学习·transformer
【Transformer架构】目录一、Transformer介绍1.1 Transformer的诞生1.2 什么是Transformer
Donvink2 天前
人工智能·深度学习·语言模型·transformer
【DeepSeek-R1背后的技术】系列九:MLA(Multi-Head Latent Attention,多头潜在注意力)【DeepSeek-R1背后的技术】系列博文: 第1篇:混合专家模型(MoE) 第2篇:大模型知识蒸馏(Knowledge Distillation) 第3篇:强化学习(Reinforcement Learning, RL) 第4篇:本地部署DeepSeek,断网也能畅聊! 第5篇:DeepSeek-R1微调指南 第6篇:思维链(CoT) 第7篇:冷启动 第8篇:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN) 第9篇:MLA(Multi-Head Latent Attention,多头潜在注
xiao5kou4chang6kai42 天前
目标检测·cnn·transformer·遥感影像
遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。随着小卫星星座的普及,对地观测已具备3次以上的全球覆盖能力,遥感影像也不断被更深入的应用于矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估中。最近借助深度学习方法,遥感影像自动地物识别取得了令人印象深刻的结果。深度卷积网络采用“端对端”的特征学习,通过
夏莉莉iy2 天前
人工智能·笔记·深度学习·机器学习·语言模型·自然语言处理·transformer
[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction论文网址:[2401.10134] Spatial-Temporal Large Language Model for Traffic Prediction
造夢先森2 天前
深度学习·transformer·llama
Transformer & LLaMATransformer:一种基于自注意力机制的神经网络结构,通过并行计算和多层特征抽取,有效解决了长序列依赖问题,实现了在自然语言处理等领域的突破。
zm-v-159304339862 天前
目标检测·cnn·transformer
从CNN到Transformer:遥感影像目标检测的未来趋势遥感影像目标检测技术近年来经历了从传统卷积神经网络(CNN)到基于Transformer架构的演进。CNN,尤其是Faster-RCNN,凭借其强大的特征提取能力,在遥感影像目标检测中取得了显著成果。然而,Faster-RCNN在处理遥感影像时仍面临挑战,如对多尺度、多角度目标的检测效率较低,且对复杂背景和遮挡的适应性不足。 随着Transformer架构的引入,目标检测技术迎来了新的突破。DETR(Detection Transformer)利用Transformer的全局特征建模能力,显著提升了目标检
qq_15321452643 天前
人工智能·语言模型·自然语言处理·chatgpt·nlp·gpt-3·transformer
Openai Dashboard可视化微调大语言模型大语言模型微调(Fine-tuning)是指对已经预训练好的大规模语言模型(如GPT、BERT等)进行针对性调整,使其适应特定任务或领域的过程。以下是关键点的分步解释:
cufewxy20183 天前
人工智能·深度学习·transformer·decoder
Transformer解析——(四)Decoder本系列已完结,全部文章地址为:Transformer解析——(一)概述-CSDN博客Transformer解析——(二)Attention注意力机制-CSDN博客
AAIshangyanxiu4 天前
pytorch·cnn·卷积神经网络·transformer·遥感影像目标检测
从CNN到 Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类原文>>>从CNN到 Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类
HPC_fac130520678164 天前
rnn·深度学习·机器学习·数据挖掘·cnn·bert·transformer
深度学习模型应用场景全解析:CNN、Transformer、BERT、RNN与GAN在深度学习的广阔天地里,各种模型如繁星点点,各自闪烁着独特的光芒。今天,让我们一同探索这些模型的适用场景、优势与局限,为您在模型选择时提供一份实用的指南。
人工智能学起来5 天前
人工智能·深度学习·计算机视觉·transformer
多模态机器学习火热idea汇总!想发论文,却完全没头绪?那我非常推荐你关注这个潜力方向:多模态机器学习!它能够把不同模态的数据,映射到统一的高维向量空间,实现模态间的语义对齐,从而促进模态间的相互理解,提高模型的性能。多媒体内容理解、医疗健康、自动驾驶、情感分析等领域都离不开它。也因此,其在NeurIPS、ICML、CVPR等顶会上都有多篇成果!
終不似少年遊*5 天前
人工智能·深度学习·nlp·transformer·注意力机制
Transformer 的核心技术Encoder、Decoder、注意力模块解析目录1. 引言说明目标2.Transformer 的整体架构功能概述基本组成Encoder-Decoder架构
2401_897930065 天前
人工智能·深度学习·transformer
Transformer 模型架构Transformer 是一种模型架构(Model Architecture),而不是一个软件框架(Framework)。它的定位更接近于一种设计蓝图,类似于建筑中的结构设计方案。以下是详细解释:
知识靠谱5 天前
人工智能·深度学习·transformer
【深度学习】Transformer入门:通俗易懂的介绍在自然语言处理(NLP)的世界里,Transformer是一个非常厉害的技术。它改变了我们处理语言的方式,让机器翻译、写作助手、聊天机器人等应用变得更加智能和高效。这篇文章将用通俗的语言,带你了解Transformer是什么,以及它是如何工作的。
Donvink6 天前
人工智能·深度学习·语言模型·transformer
【复现DeepSeek-R1之Open R1实战】系列5:SFT源码逐行深度解析【复现DeepSeek-R1之Open R1实战】系列3:SFT和GRPO源码逐行深度解析(上) 【复现DeepSeek-R1之Open R1实战】系列5:SFT和GRPO源码逐行深度解析(中)
赵钰老师6 天前
pytorch·深度学习·目标检测·机器学习·数据分析·cnn·transformer
【深度学习】遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。Transformer 彻底改变了自然语言处理(NLP)领域,并成为许多现代 AI 模型(如 BERT、GPT 等)的基础。
凳子花❀6 天前
transformer·ai大模型·deepseek·deepseek r1
DeepSeek R1原理DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清
weixin_贾7 天前
目标检测·cnn·transformer
遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)专题一 深度卷积网络 1.深度学习在遥感图像识别中的范式和问题 2.深度学习的历史发展历程 3.机器学习,深度学习等任务的基本处理流程 4.卷积神经网络的基本原理 5.卷积运算的原理和理解 6.池化操作,全连接层,以及分类器的作用 7.BP反向传播算法的理解 8.CNN模型代码详解 9.特征图,卷积核可视化分析