transformer

FF-Studio10 小时前
人工智能·pytorch·深度学习·线性代数·机器学习·数学建模·transformer
【硬核数学 · LLM篇】3.1 Transformer之心:自注意力机制的线性代数解构《从零构建机器学习、深度学习到LLM的数学认知》我们已经完成了对机器学习和深度学习核心数学理论的全面探索。我们从第一阶段的经典机器学习理论,走到了第二阶段的深度学习“黑盒”内部,用线性代数、微积分、概率论、优化理论等一系列数学工具,将神经网络的每一个部件都拆解得淋漓尽致。
寻丶幽风2 天前
论文阅读·笔记·transformer·三维重建·3dgs·vggt
论文阅读笔记——VGGT: Visual Geometry Grounded TransformerVGGT 论文 输入是 N 个 RGB 图像 I i ∈ R 3 × H × W I_i\in\mathbb{R}^{3×H×W} Ii∈R3×H×W 的序列 ( I i ) i = 1 N (I_i)^N_{i=1} (Ii)i=1N,观察相同 3D 场景。 VGGT 的 Transformer 是一个映射函数,将此序列映射为一组对应的 3D 标注, f ( ( I i ) i = 1 N ) = ( g i , D i , P i , T i ) i = 1 N f\left((I_i)^N_{i=1
suixinm11 天前
gru·lstm·transformer
LSTM、GRU 与 Transformer网络模型参数计算LSTM 单元包含 4 个门控结构(输入门、遗忘门、候选单元、输出门)Python简化公式: LSTM_params ≈ 4 × hidden_size × (input_size + hidden_size + 1)
是纯一呀12 天前
人工智能·lstm·transformer·预测
融合LSTM与自注意力机制的多步光伏功率预测新模型解析这篇论文《Improved multistep ahead photovoltaic power prediction model based on LSTM and self-attention with weather forecast data》(2024, Applied Energy)聚焦在 多步光伏功率预测 中,如何结合 LSTM 与自注意力机制(self-attention),并 有效引入天气预报数据 来提升预测准确性。
Tadas-Gao12 天前
人工智能·深度学习·机器学习·大模型·llm·transformer
视觉Transformer金字塔架构演进:从PVT到CoaT的技术脉络与创新解析视觉Transformer架构自ViT问世以来,经历了从基础架构到专用设计的快速演进过程,其中金字塔结构的设计成为解决密集预测任务的关键突破点。本文将系统分析PVT、PVT-v2、CPVT和CoaT四种代表性架构的技术演变路径,揭示其背后的设计哲学与创新要点,探讨金字塔视觉Transformer如何从初步探索走向成熟应用。
抱抱宝13 天前
深度学习·自然语言处理·transformer
Transformer:现代自然语言处理的革命性架构Transformer模型彻底改变了自然语言处理领域,它摒弃了传统的循环神经网络(RNN)结构,完全基于自注意力机制构建。这种架构在机器翻译、文本生成等任务中表现出色,成为当今NLP模型的基石。
taichiXD14 天前
学习·transformer
大模型学习入门——Day4: Encoder-Decoder笔记参考教程——DataWhale快乐学习LLM Seq2Seq,即序列到序列,是一种经典 NLP 任务。具体而言,是指模型输入的是一个自然语言序列 x 1 , x 2 , x 3 , . . . x_1, x_2, x_3,... x1,x2,x3,...,然后输出一个序列(长度可能不等)。事实上,Seq2Seq 是 NLP 最经典的任务,几乎所有的 NLP 任务都可以视为 Seq2Seq 任务。但这一看似直观的任务背后,隐藏着怎样的技术实现?为什么 Encoder-Decoder 结构会成为 Seq2
RockLiu@80514 天前
pytorch·深度学习·transformer
Efficient Non-Local Transformer Block: 图像处理中的高效非局部注意力机制随着深度学习的发展,Transformer 模型已经在自然语言处理和计算机视觉领域取得了巨大成功。然而,传统的自注意力机制计算复杂度较高,不利于实时图像处理任务的部署和应用。为此,研究者们提出了各种改进方法,其中一种高效的解决方案是引入非局部注意力(Non-Local Attention)机制。本文将详细介绍基于高效非局部注意力的 Transformer Block (ENLTB)的设计与实现,并通过代码示例展示其具体应用。
CS创新实验室14 天前
大模型·transformer·attention·注意力
研读论文《Attention Is All You Need》(17)7 ConclusionIn this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.
盼小辉丶15 天前
人工智能·深度学习·transformer
Transformer实战——Hugging Face环境配置与应用详解我们已经了解了使用深度学习 (Deep Learning, DL) 方法的自然语言处理 (Natural Language Processing, NLP) 技术演进,学习了关于 Transformer 及其架构的一些基本信息。在本节中,我们将深入探讨 Transformer 模型的应用,详细介绍分词器 (tokenizer) 和模型,例如双向编码器表示 (Bidirectional Encoder Representations from Transformer, BERT),并通过实践介绍如何加载分词
我不是小upper17 天前
rnn·机器学习·transformer
讲透 RNN 到 Transformer !!!哈喽,我是我不是小upper~在深度学习领域,序列数据处理一直是重要的研究方向,从语音识别到自然语言处理,从时间序列分析到机器翻译,数据都以序列的形式存在。今天咱们就来聊聊从 RNN 到 Transformer 的演变历程,一起探究为什么 “Attention Is All You Need”?
Shannon@20 天前
深度学习·机器人·llm·transformer·具身智能·gato·rt-1
(下)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同接上篇《(上)通用智能体与机器人Transformer:Gato和RT-1技术解析及与LLM Transformer的异同 》
扉间79820 天前
人工智能·transformer
Transformer 核心概念转化为夏日生活类比以下是把 Transformer 核心概念转化为「夏日生活类比」,不用看代码也能秒懂,搭配冰镇西瓜式记忆法:
vlln20 天前
人工智能·深度学习·神经网络·搜索引擎·transformer
【论文解读】OmegaPRM:MCTS驱动的自动化过程监督,赋能LLM数学推理新高度1st authorpaper: [2406.06592] Improve Mathematical Reasoning in Language Models by Automated Process Supervision
黄小耶@21 天前
transformer
大模型 LoRA 微调:高效训练的秘密武器目录1. 引言2. 环境准备3. 加载模型和分词器4. LoRA 算法简介5. 配置 LoRA 参数参数解释
vlln21 天前
人工智能·深度学习·语言模型·自然语言处理·transformer
【论文解读】rStar:用互洽方法增强 SLM(小型语言模型) 推理能力1st author: Zhenting Qipaper: [2408.06195v1] Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
勤奋的知更鸟21 天前
深度学习·神经网络·transformer
深度学习神经网络架构Transformer深刻理解你可能听说过 Transformer,听说它是 ChatGPT 的核心结构,或者它是深度学习的一个神级发明,甚至是“自然语言处理的变革性里程碑”,各大教育机构和电子书也有深刻的见解,但当你去百度、知乎、B站一搜,全是一些看不懂的专业术语,比如“多头注意力”、“位置编码”、“层归一化”、“残差连接”…… 那Transformer 到底是个啥?它到底在干嘛?今天我们来彻底讲清楚 Transformer,到底是什么,怎么来的,怎么用,为什么它这么强。 一句话理解 Transformer:
Crabfishhhhh22 天前
pytorch·python·神经网络·学习·transformer
神经网络学习-神经网络简介【Transformer、pytorch、Attention介绍与区别】本笔记总结了神经网络基础理论、常见模型结构、优化方法以及 PyTorch 实践,适用于初学者和进阶者查阅学习。
追风哥哥22 天前
rnn·深度学习·cnn·卷积神经网络·transformer
Transformer、RNN (循环神经网络) 和 CNN (卷积神经网络)的区别我们来详细对比一下 Transformer、RNN (循环神经网络) 和 CNN (卷积神经网络) 这三种在深度学习中极其重要的架构,并通过具体例子说明它们的区别。
机器学习之心22 天前
cnn·gru·transformer·cnn-gru·transformer-gru·五模型时序预测对比
Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型时序预测对比Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型单变量时间序列预测对比 (Matlab2023b)