transformer

副露のmagic2 小时前
人工智能·深度学习·transformer
Transformer架构假设输出为y^=[0.85,0.15],我们假设真实标签为 y=[1,0](即真实类别为“买”),使用交叉熵损失函数
yuezhilangniao2 小时前
人工智能·深度学习·transformer
AI从“我=I”到“关系计算”:Transformer入门指南-理解疯狂计算关系的Transformer为了让大家爱听,我先抛出我的观点: 打个比喻,什么是Transformer?疯狂计算关系的一位同志。更有诗意的描述: 当你在对话框按下回车键的瞬间,你的句子在Transformer眼中瞬间解构——每个词都化作数字星球,进入一个充满引力关系的平行宇宙。 这里没有绝对的先后顺序,所有词汇同时苏醒,疯狂计算着彼此间的引力强度:“月光”与“温柔”产生诗意共振,“数据”与“算法”形成逻辑轨道,“梦想”与“现实”在认知场中角力。这不是逐字翻译,而是文字在数学空间中的全息舞蹈,每一个意义的诞生都是十亿级关系同步计算后的
应用市场2 小时前
深度学习·cnn·transformer
【显著性预测】TranSalNet:Transformer与CNN融合的视觉显著性预测模型本文介绍一种将Transformer与CNN结合的视觉显著性预测模型——TranSalNet。通过在多尺度特征图上引入Transformer编码器,有效捕获长距离上下文信息,使显著性预测更接近人类视觉注意力机制。
煤炭里de黑猫5 小时前
人工智能·pytorch·transformer
使用PyTorch创建一个标准的Transformer架构2026年,Transformer架构仍然是现代深度学习最核心的组件之一。从BERT、GPT系列到LLaMA、Qwen、Grok,几乎所有前沿大模型都建立在Transformer(或其变体)之上。本文将使用纯PyTorch,从零开始实现一个标准的Encoder-Decoder Transformer架构(即原始《Attention is All You Need》论文中的结构)。
njsgcs7 小时前
人工智能·rnn·transformer
ppo导航依赖第一步,那是rnn好还是transformer这是一个非常实际且关键的问题! “导航任务高度依赖第一步(初始决策),那用 RNN 好还是 Transformer 好?”
孤狼warrior1 天前
人工智能·python·深度学习·stable diffusion·cnn·transformer·stablediffusion
图像生成 Stable Diffusion模型架构介绍及使用代码 附数据集批量获取Diffusion,也就是扩散的意思。Diffusion模型是一种受到非平衡热力学启发,定义马尔科夫链的扩散步骤,向数据添加噪声,学习逆扩散过程,从噪声中构建样本。最初设计用于去噪,训练时间越长,降噪越逼真。
楚来客1 天前
深度学习·神经网络·transformer
AI基础概念之十三:Transformer 算法结构相比传统神经网络的改进Transformer 的编码器 - 解码器架构,本质上是一种特殊的 “输入层→隐藏层→输出层” 结构,但和传统神经网络(如 MLP、CNN、RNN)相比,其结构改动是颠覆性的 —— 核心是用注意力机制 + 并行子层替代了传统网络的 “全连接 / 卷积 / 递归” 隐藏层,同时重构了输入输出的信息传递逻辑。以下是从 “输入 - 隐藏 - 输出” 三层视角,拆解 Transformer 相对传统神经网络的核心结构改动:
AI即插即用1 天前
人工智能·深度学习·神经网络·计算机视觉·cnn·transformer·剪枝
即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位论文题目:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
抓个马尾女孩2 天前
人工智能·深度学习·机器学习·transformer
为什么self-attention除以根号dk而不是其他值最近在看transformers源码的过程中一直有个疑问,为什么self-attention在Q向量与K向量转置相乘后要除以根号dk而不是dk或是其他值,借此机会做个记录。
Blossom.1182 天前
人工智能·python·深度学习·机器学习·自然语言处理·架构·transformer
用纯 NLP 打造「零样本」时序预测模型:文本化序列 + LLM 的实战路线传统时序方案(ARIMA/LSTM/Prophet)有三个痛点:需要足够长的历史窗口,冷启动项目往往“数据不够”
deep_drink2 天前
人工智能·深度学习·神经网络·transformer·point cloud
【论文精读(二十三)】PointMamba:点云界的“凌波微步”,线性复杂度终结 Transformer 霸权(NeurIPS 2024)博主导读:   在点云分析的武林中,Transformer 家族(如 Point-MAE, PointGPT)凭借着强大的“全局注意力”心法,坐稳了 SOTA 的盟主宝座。但它们有一个致命的软肋:太重了! 自注意力机制 O ( N 2 ) O(N^2) O(N2) 的复杂度,就像是一个体重 300 斤的大力士,虽然力大无穷,但遇到大规模场景(N 变大)时,显存直接爆炸,速度慢如蜗牛。   这时候,隔壁 NLP 领域杀出了一匹黑马——Mamba。它号称拥有 Transformer 的全局视野,却只有 RNN
liulanba2 天前
人工智能·架构·transformer
AI Agent技术完整指南 第四部分:Transformer架构与实践Transformer 是一种深度学习架构,专门用于处理序列数据(如文本、语音等)。核心特点:在Agent系统中,Transformer通常以**大语言模型(LLM)**的形式出现:
飞Link2 天前
人工智能·深度学习·计算机视觉·transformer
ASFormer 动作分割模型全解析:原理、结构、代码实战与工程踩坑总结在视频动作理解领域,动作分割(Action Segmentation)一直是最具挑战性的任务之一。相比于短视频分类,动作分割要求:
盼小辉丶2 天前
深度学习·计算机视觉·transformer·vit
视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集(如 JFT-300M )上预训练才能达到最佳性能,这限制了其在数据有限场景下的应用。DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的 ImageNet 数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 P
富贵0073 天前
大模型·transformer
解码器(Decoder)与编码器(Encoder)的简明解析在计算机科学及相关领域中,解码器(Decoder)与编码器(Encoder)是数据处理与通信过程中的核心组件,它们各自扮演着将信息从一种形式转换为另一种形式的关键角色。本文将通过简明扼要的语言,结合实际应用场景,为您揭示这两个技术概念的本质。
翱翔的苍鹰3 天前
人工智能·pytorch·rnn·深度学习·神经网络·transformer·word2vec
循环神经网络-RNN和简单的例子现在我来用 最通俗易懂的方式,帮你彻底搞懂: 🔹 RNN 是什么? 🔹 词嵌入(Embedding)是怎么回事? 🔹 它们怎么一起工作? 🔹 如何快速记住这些知识点? 我们不讲公式,只讲“人话”和“比喻”,保证你听完就能理解、能复述、能动手写代码! 🌟 一、什么是 RNN?——“会记忆的神经网络” 💡 比喻:RNN 就像一个有“短期记忆”的机器人 想象你在教一个机器人读一句话:“今天天气真好。” 它看到“今”字 → 不知道意思 看到“天”字 → 哦,可能是“今天” 看到“气”字 → 哦,是“天
乌恩大侠3 天前
人工智能·深度学习·5g·fpga开发·transformer·usrp·mimo
【AI-RAN 调研】软银株式会社通过全新 Transformer AI 将 5G AI-RAN 吞吐量提升 30%https://www.softbank.jp/en/corp/news/press/sbkk/2025/20250821_02/
飞Link3 天前
人工智能·深度学习·transformer
视觉领域的变革者:ViT (Vision Transformer) 深度解析与实战在 2020 年之前,卷积神经网络 (CNN) 统治着计算机视觉领域。然而,Google 提出的 ViT (Vision Transformer) 彻底打破了这一格局。它证明了:不需要卷积(Convolution),纯 Transformer 架构也能在视觉任务上取得 SOTA 效果。
Jack___Xue4 天前
人工智能·深度学习·transformer
LLM知识随笔(一)--Transformer可以理解为向量化,将物理世界实体转成数学空间的向量,以便进行计算 官方版:将离散的、高维的、稀疏的数据(如文字、图片ID、商品ID)转换为连续的、低维的、稠密的向量表示的过程,这个转换后的向量就称为嵌入向量 或 Embedding
高洁014 天前
python·算法·机器学习·transformer·知识图谱
数字孪生与数字样机的技术基础:建模与仿真数字孪生与数字样机的技术基础:建模与仿真一、基本概念辨析 二、建模技术基础 三、仿真技术基础 四、关键技术挑战 五、发展趋势