transformer

@鱼香肉丝没有鱼2 小时前
人工智能·深度学习·transformer·位置编码
Transformer底层原理—位置编码在transformer中,embedding层位于encoder和decoder之前,主要负责进行语义编码。Embedding层将离散的词汇或符号转换为连续的高维向量,使得模型能够处理和学习这些向量的语义关系。通过嵌入表示,输入的序列可以更好地捕捉到词与词之间的相似性和关系。此外,在输入到编码器和解码器之前,通常还会添加位置编码(Positional Encoding),因为transformer没有内置的序列顺序信息,也就是说 Attention 机制本身会带来位置信息的丧失。
拉姆哥的小屋3 小时前
人工智能·深度学习·transformer
【深度学习实战】基于CyclePatch框架的电池寿命预测:从NASA数据集到Transformer模型的完整实现在新能源和电动汽车快速发展的背景下,电池寿命预测已成为关键技术。传统方法依赖经验公式和物理模型,难以处理复杂工况。本文介绍一个基于深度学习的电池寿命预测系统,结合创新的CyclePatch框架与Transformer架构,在NASA电池数据集上实现多任务学习,同时预测RUL、SOH、SOC和容量。
高洁014 小时前
人工智能·python·深度学习·机器学习·transformer
一文了解图神经网络一文了解图神经网络 研究背景 基本概念 1.什么是图 2.图神经网络实现方法 1.空域图卷积 2.谱域图卷积
Robot侠7 小时前
llm·transformer·提示工程·multi-modal llm
极简LLM入门指南 8
心疼你的一切7 小时前
人工智能·深度学习·目标检测·机器学习·计算机视觉·自然语言处理·transformer
自然语言处理_NLP与Transformer架构自然语言处理(Natural Language Processing, NLP)是人工智能领域中专注于计算机与人类语言交互的分支。随着深度学习技术的发展,NLP取得了突破性进展,特别是在2017年Transformer架构提出之后。本文将深入探讨NLP的核心概念、技术发展,以及Transformer架构的革命性影响。
@鱼香肉丝没有鱼1 天前
人工智能·深度学习·transformer·注意力机制
Transformer原理—注意力机制Transformer模型,作为自然语言处理(NLP)领域的一块重要里程碑,于2017年由Google的研究者们提出,现在成为深度学习中对文本和语言数据处理具有根本性影响的架构之一。在NLP的宇宙中,如果说RNN、LSTM等神经网络创造了“序列记忆”的能力,那么Transformer则彻底颠覆了这种“记忆”的处理方式——它放弃了传统的顺序操作,而是通过自注意力机制(Self-Attention),赋予模型一种全新的、并行化的信息理解和处理方式。从自注意力的直观概念出发,Transformer的设计者们引进
m0_650108241 天前
论文阅读·深度学习·目标检测·transformer·全局建模 + 直接集合预测”·betr
DETR:基于 Transformer 的端到端目标检测目标检测作为计算机视觉的核心任务之一,其核心目标是精准预测图像中感兴趣目标的边界框与类别标签。长期以来,主流检测方法(如 Faster R-CNN、SSD 等)均采用间接建模方式,通过锚点生成、候选区域提取等预处理步骤,将集合预测问题转化为大量候选框的分类与回归任务。这类方法存在固有缺陷:锚点设计依赖人工经验、非极大值抑制(NMS)等后处理步骤需要手动调优、候选框分配规则存在启发式偏见,这些因素导致检测 pipeline 复杂且泛化能力受限。
Cathyqiii1 天前
人工智能·rnn·深度学习·transformer
序列建模模型原理及演进——从RNN、Transformer到SSM与Mamba序列建模是深度学习的核心领域之一,旨在处理具有时序依赖关系的序列数据。从CNN到最新的Mamba模型,序列建模技术经历了革命性的演进,不断突破计算效率和建模能力的边界。
java1234_小锋2 天前
深度学习·语言模型·transformer
Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 残差连接(Residual Connection)详解以及算法实现锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
【建模先锋】2 天前
人工智能·深度学习·cnn·transformer·故障诊断·多源信息融合
多源信息融合!基于特征信号VMD分解+CNN-Transformer的故障诊断模型!Python轴承故障诊断 (14)高创新故障识别模型-CSDN博客独家原创 | SCI 1区 高创新轴承故障诊断模型!-CSDN博客
自动驾驶小学生2 天前
人工智能·深度学习·llm·transformer
Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)视频链接:bilibi本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。
盼小辉丶2 天前
深度学习·transformer·可解释人工智能
Transformer实战(31)——解释Transformer模型决策随着大语言模型 (Large Language Model, LLM) 的广泛应用,模型输出的准确性与可解释性之间的权衡问题变得尤为重要。可解释人工智能 (explainable artificial intelligence, XAI) 研究中的最大挑战是处理深度神经网络模型中大量的网络层和参数,旨在找到一种方法来理解深度模型如何做出决策。本节将从 Transformer 模型的角度来探讨可解释人工智能,我们已经学习了如何使用多种自注意力机制可视化工具,理解 Transformer 模型如何处理输入,并
java1234_小锋3 天前
深度学习·语言模型·transformer
Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 编码器(Encoder)详解以及算法实现锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
相思半3 天前
大数据·人工智能·笔记·python·机器学习·数据挖掘·transformer
机器学习模型实战全解析简单线性回归(Simple Linear Regression) 通过一条直线拟合一个自变量与因变量之间的线性关系,是回归分析中最基础的形式。其核心是找到一条最佳拟合直线,使得所有数据点到该直线的垂直距离(残差)平方和最小。经典应用场景包括分析房价与面积、广告投入与销售额等单一因素对连续结果的影响。
杀生丸学AI4 天前
人工智能·深度学习·3d·aigc·transformer·三维重建·视觉大模型
【无标题】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘标题:《VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction》 项目:https://3dagentworld.github. io/vggt4d/ 来源:香港科技大学(广州)2Horizon Robotics
高洁014 天前
人工智能·python·深度学习·神经网络·transformer
激活函数应该具有哪些特征激活函数应该具有哪些特征1.非线性2.可微性3.计算效率高4.缓解梯度消失与爆炸5.合理的输出范围6.稀疏激活能力
陈 洪 伟4 天前
transformer·注意力机制
Transformer彻底剖析(4):注意力为什么要用多头以及为什么有多层注意力目录1 注意力机制为什么用多头的2 多头注意力的实际数学计算解释2.1 误区1:多头就是直接把512分成8组
java1234_小锋4 天前
深度学习·语言模型·transformer
Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 层归一化(Layer Normalization)详解以及算法实现锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
java1234_小锋5 天前
深度学习·语言模型·transformer
Transformer 大语言模型(LLM)基石 - Transformer架构详解 - 自注意力机制(Self-Attention)原理介绍锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
aaaa_a1335 天前
人工智能·深度学习·transformer
The lllustrated Transformer——阅读笔记自己看的机翻和kimi和一些笔记把模型看成黑箱,输入是一种语言,输出翻译成另一种语言编码器有六层、解码器六层