transformer

AI小怪兽1 小时前
人工智能·深度学习·yolo·目标检测·架构·transformer
RF-DETR:实时检测Transformer的神经架构搜索,首个突破 60 AP 的实时检测器 | ICLR 2026 in Submission🔍本文的核心贡献在于:提出RF-DETR框架:首次将端到端权重共享神经架构搜索应用于DETR系列,实现了无需重新训练即可为任意目标数据集与硬件快速定制模型。
Yorelee.8 小时前
开发语言·nlp·transformer·swift
ms-swift在训练时遇到的部分问题及解决方案虽然查找model.safetensors.index.json可以发现此参数确实存在,但当我的模型进行GRPO训练时就是会爆这个错误。模型先进行了SFT训练,再进行的GRPO训练,直接进行GRPO训练没问题。
l木本I9 小时前
深度学习·机器学习·计算机视觉·transformer·美食
星尘自研Lumo-1模型(mind to hand)详细解读原文链接:https://arxiv.org/pdf/2512.08580目录Mind to Hand: Purposeful Robotic Control via Embodied Reasoning
高洁0111 小时前
python·深度学习·算法·机器学习·transformer
DNN案例一步步构建深层神经网络(3)DNN案例一步步构建深层神经网络(3) 三、深层神经网络 四、对于构建的深层神经网络的应用#人工智能#具身智能#VLA#大模型#AI
free-elcmacom12 小时前
人工智能·python·机器学习·transformer
机器学习高阶教程<7>Transformer原理全景解读:从“序列困境”到“注意力革命”Hello 各位机器学习爱好者!如果你跟着我的入门、进阶系列博客走到这里,想必已经有了扎实认知——我们用一些机器学习算法搞定过图像分类、文本情感分析,甚至简单的机器翻译。但不知道你有没有发现一个“越学越困惑”的点:当处理长文本(比如一篇论文、一本小说)时,RNN的“逐字处理”总是力不从心,CNN的“局部感受野”又抓不住远距离的语义关联。
hopsky1 天前
pytorch·深度学习·transformer
经典Transformer的PyTorch实现逐行拆解一个经典Transformer的PyTorch实现,并对应到"猫坐在垫子上"这个例子。每一层都在同一个向量空间中操作,但通过注意力机制不断交换信息,让模型逐层抽象出从字形→词义→句法→语义的层次化理解。
RedMery1 天前
ubuntu·transformer·mr
环境Ubuntu 25.04,RTX4090,CUDA12.8下的Mr.DETR、Detectron2、detrex、Transformer安装Ubuntu:25.04 GPU:RTX 4090 gcc:14 CUDA:12.8 torch:2.4
Blossom.1181 天前
运维·人工智能·pytorch·python·深度学习·自动化·transformer
Transformer时序预测实战:用PyTorch构建股价预测模型摘要:本文将深入探讨如何利用Transformer架构进行时间序列预测。不同于传统的LSTM模型,Transformer通过自注意力机制捕捉长期依赖关系,在股价预测等场景展现出卓越性能。我们将从零实现一个完整的预测模型,包含数据预处理、位置编码、注意力机制等核心模块,并提供可直接运行的代码。
小草cys2 天前
人工智能·bert·transformer
BERT 和 Transformer 的关系BERT 和 Transformer 的关系,可以用一句话概括:BERT 是基于 Transformer 架构构建的预训练语言模型。
高洁012 天前
人工智能·神经网络·算法·机器学习·transformer
DNN案例一步步构建深层神经网络DNN案例一步步构建深层神经网络 一、总体目标与大致结构 二、应用的包import 三、深层神经网络#人工智能#具身智能#VLA#大模型#AI#LLM#Transformer 架构#AI技术前沿#Agent大模型#工信部证书#人工智能证书#职业证书
心疼你的一切2 天前
人工智能·深度学习·神经网络·机器学习·transformer
使用Transformer构建文本分类器自然语言处理(NLP)是人工智能领域中致力于使计算机能够理解、解释和生成人类语言的技术。从早期的基于规则的方法,到统计机器学习方法,再到如今的深度学习时代,NLP技术经历了巨大的变革。
لا معنى له2 天前
人工智能·笔记·深度学习·学习·机器学习·transformer
学习笔记:Transformer为什么需要用transformer?在没有transformer的时候,我们都是用什么来完成这系列的任务的呢?
深度学习实战训练营2 天前
人工智能·深度学习·transformer
SegFormer:使用Transformer进行语义分割,简单而高效的设计-k学长深度学习专栏本文来源:k学长的深度学习宝库,点击查看源码&详细教程。深度学习,从入门到进阶,你想要的,都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。
白熊1882 天前
人工智能·深度学习·transformer
【论文精读】Transformer: Attention Is All You Need 注意力机制就是一切翻译: 主流的序列转换模型(如机器翻译)基于复杂的循环神经网络或卷积神经网络,并采用编码器-解码器架构。性能最佳的模型还通过注意力机制来连接编码器和解码器。
Robot侠2 天前
llm·transformer·vln·multi-modal llm
视觉语言导航从入门到精通(三)本文是「视觉语言导航从入门到精通」系列的第三篇,深入讲解VLN的核心模型架构和关键技术。VLN Agent 架构
lybugproducer3 天前
人工智能·深度学习·transformer
深度学习专题:模型训练的张量并行(一)张量并行(Tensor Parallelism)是一种将单个张量分割到多个 GPU 上进行并行计算的技术,尤其在 Transformer 架构中广泛用于大模型训练和推理。
V1ncent Chen3 天前
人工智能·深度学习·transformer
深度学习进化的里程碑:Transformer模型深度学习中的 Transformer 模型 是一个在自然语言处理(NLP)领域取得革命性成功的架构,其核心创新是完全依赖 自注意力机制(Self-Attention),彻底摒弃了传统循环神经网络(RNN)和卷积神经网络(CNN)中的序列对齐或局部特征提取。
深度学习实战训练营3 天前
人工智能·深度学习·transformer
TransUNet:Transformer 成为医学图像分割的强大编码器,Transformer 编码器 + U-Net 解码器-k学长深度学习专栏本文来源:k学长的深度学习宝库,点击查看源码&详细教程。深度学习,从入门到进阶,你想要的,都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。
@鱼香肉丝没有鱼3 天前
人工智能·深度学习·transformer·位置编码
Transformer底层原理—位置编码在transformer中,embedding层位于encoder和decoder之前,主要负责进行语义编码。Embedding层将离散的词汇或符号转换为连续的高维向量,使得模型能够处理和学习这些向量的语义关系。通过嵌入表示,输入的序列可以更好地捕捉到词与词之间的相似性和关系。此外,在输入到编码器和解码器之前,通常还会添加位置编码(Positional Encoding),因为transformer没有内置的序列顺序信息,也就是说 Attention 机制本身会带来位置信息的丧失。
拉姆哥的小屋3 天前
人工智能·深度学习·transformer
【深度学习实战】基于CyclePatch框架的电池寿命预测:从NASA数据集到Transformer模型的完整实现在新能源和电动汽车快速发展的背景下,电池寿命预测已成为关键技术。传统方法依赖经验公式和物理模型,难以处理复杂工况。本文介绍一个基于深度学习的电池寿命预测系统,结合创新的CyclePatch框架与Transformer架构,在NASA电池数据集上实现多任务学习,同时预测RUL、SOH、SOC和容量。