transformer

简简单单做算法1 天前
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真目录1.前言2.算法测试效果图预览3.算法运行软件版本4.部分核心程序5.算法理论概述5.1 各模块核心原理
带娃的IT创业者1 天前
人工智能·深度学习·神经网络·transformer·架构设计·mlp
MLP vs Transformer:不同问题用不同工具📚 《从零到一造大脑:AI架构入门之旅》专栏 专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块:
code_pgf1 天前
人工智能·深度学习·transformer
Transformer 原理讲解及可视化算子操作Transformer 是一种完全基于注意力机制(Attention) 的序列建模架构。与传统 RNN/LSTM 不同,Transformer 不依赖递归;与传统 CNN 不同,它也不依赖卷积来传播长程依赖。其核心思想是:
星川皆无恙1 天前
pytorch·深度学习·transformer
Vision Transformer学习笔记:从 Attention 核心理论到 PyTorch 源码实战“An Image is Worth 16x16 Words” —— 一张图片等价于 16×16 的"单词"
<-->1 天前
人工智能·pytorch·python·深度学习·transformer
DeepSpeed 学习指南适合希望深入理解 DeepSpeed 内部机制的工程师与研究者。DeepSpeed 是 Microsoft 开源的大规模分布式深度学习训练与推理优化框架。其核心价值:
刘 大 望3 天前
java·人工智能·spring·机器学习·ai·aigc·transformer
RAG相关技术介绍及Spring AI中使用--第一期RAG (Retrieval Augmented Generation,检索增强生成),是一种结合信息检索 (Retrieval) 和文本生成 (Generation) 的混合架构。
茴香豆的茴3 天前
transformer
手撕 Transformer (5):模型构建前置知识:嵌入层和位置编码、编码器的实现、解码器和输出部分的实现。 之前的文章已经把构建 Transformer 所需的所有组件构建完了,这篇文章开始构建整个编码器-解码器结构。
小超同学你好3 天前
人工智能·深度学习·语言模型·架构·transformer
Transformer 23. Qwen 3.5 架构介绍:混合线性/全注意力、MoE 与相对 Qwen 1 / 2 / 3 的演进摘要:本文说明 Qwen3.5 开放权重系列的文本骨干(公开权重多为 图文统一 的 ForConditionalGeneration,含 Vision Encoder;数学与实现细节以 text_config 为主)。相对 Qwen3 及更早代际,Qwen3.5 的硬变化是 高效混合架构:在堆叠的 Decoder 层中 交替使用「线性注意力类子层(配置名 linear_attention)」与「标准因果全注意力子层(full_attention)」,典型节奏为 每 4 层中 3 层线性、1 层全注意力(f
小超同学你好4 天前
人工智能·深度学习·transformer
Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算摘要:本文在 Decoder Only Transformer 与 LLaMA 架构 的统一框架下,系统介绍 Gemma 1(2B / 7B) 的架构与每一步的矩阵维度与运算。内容包括:Gemma 1 的定位(与 Gemini 技术同源的开源 Decoder-only 文本模型)、从文本到解码器的数据流(SentencePiece 词表、嵌入、无在嵌入上相加的绝对位置向量)、单层 Decoder 内的 Pre-Norm + RMSNorm、带掩码自注意力(7B 为 MHA,2B 为 MQA)与 RoPE、
lin_dec+4 天前
nlp·transformer·vllm·大模型推理·kv cache
KV Cache:大模型推理加速的关键技术目录1、为什么需要 KV Cache?先搞懂大模型的文本生成模式2、不使用 KV Cache 时,到底有多少冗余计算?
机器学习之心4 天前
深度学习·gru·transformer·门控循环单元·编码器·二次分解
CEEMDAN-VMD-Transformer-GRU二次分解+编码器+门控循环单元多元时间序列预测实际工程与科学数据(如振动信号、电力负荷、金融时序)常呈现非线性、非平稳特征,单一预测模型难以充分提取多尺度信息。为此,结合自适应信号分解(CEEMDAN、VMD)与深度学习(Transformer、GRU)成为提升预测精度的有效手段。本代码实现了一套“分解-聚类-再分解-分量预测-重构”的完整流程,旨在提高复杂时间序列的预测性能。
wd5i8kA8i4 天前
人工智能·深度学习·transformer
Transformer 与模型架构原理Transformer 采用 Encoder-Decoder 架构,但两者都由相同的 Layer 堆叠而成。
小码吃趴菜4 天前
人工智能·深度学习·transformer
Transformer 视频学习笔记这段视频主要讲的是 Transformer 的整体结构,以及输入嵌入层、编码器、解码器、输出层这四大模块分别在做什么。 如果用一句话总结:
小超同学你好5 天前
人工智能·语言模型·架构·transformer
Transformer 20. Qwen 3 架构介绍:模块详解与相对 Qwen 1 / Qwen 2 的演进摘要:本文基于 Qwen3 Technical Report(arXiv:2505.09388),按数据流自洽展开:§2 给出 整体架构总览(Decoder-only 数据流、单 Block 示意,便于与社区导读对照);继而从 Tokenizer、Embedding、绑权 写到 单层 Decoder 内的 RMSNorm、GQA、RoPE、QK-Norm、因果注意力、SwiGLU FFN、输出层,并说明 长上下文(三阶段预训练、RoPE 基频 ABF、YARN、DCA)、MoE(128 路由专家、top-
人工智能培训5 天前
人工智能·深度学习·机器学习·transformer·知识图谱
系统集成与计算效率问题探析在数字经济高速迭代的今天,系统集成已成为企业数字化转型的核心支撑,其本质是将分散的硬件设备、软件模块、数据资源与业务流程有机融合,构建统一协同的运行体系。而计算效率作为衡量系统性能的关键指标,直接决定了系统响应速度、资源利用率与业务处理能力,二者相辅相成、辩证统一。系统集成的科学性的直接影响计算效率的发挥,而计算效率的优化需求,又推动着系统集成技术的持续升级。当前,随着大数据、人工智能、工业互联网等技术的普及,系统规模不断扩大、异构设备日益增多,系统集成中的计算效率瓶颈逐渐凸显,成为制约企业数字化发展的重
小超同学你好5 天前
语言模型·架构·transformer·llama
Transformer 21. 从 LLaMA 到 Qwen:Rotary Position Embedding(RoPE)与 YaRN 一文读懂摘要:RoPE(Rotary Position Embedding)把「位置」编码进注意力分数的方式,从「在词向量上加一根位置向量」改成「在每一层对 Q、K 做几何旋转」。本文先讲为什么要这样设计(相对位置、外推动机),再给出二维一对的公式与为何点积只依赖相对距离的推导;最后说明 YaRN 如何在做长文外推时重缩放注意力,并与 Decoder Only Transformer、LLaMA 架构、Qwen 1 / Qwen 1.5、Qwen 2 及社区读物中的叙述对齐。
机器学习之心5 天前
深度学习·神经网络·transformer·双重分解·多元时间序列预测
CEEMDAN-VMD-Transformer-BiLSTM双重分解+编码器+双向长短期记忆神经网络多元时间序列预测时间序列预测在金融、气象、电力负荷、设备故障诊断等领域具有广泛应用。实际信号往往具有非线性、非平稳、多尺度特征,单一预测模型难以捕捉其复杂动态特性。为此,研究者常采用信号分解 + 深度学习的混合建模方法。本代码实现了一种结合:
ZhouDevin5 天前
人工智能·python·算法·目标检测·计算机视觉·transformer
【算法实战】DEIMv2全流程复现官方仓库 https://github.com/Intellindust-AI-Lab/DEIMv2我自己用micromamba管理环境,大家换成conda也可以,只要是python=3.11.9就好
带娃的IT创业者5 天前
人工智能·gpt·深度学习·神经网络·架构·nlp·transformer
期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)📚 《从零到一造大脑:AI架构入门之旅》专栏专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块:
wei_shuo3 个月前
pytorch·transformer·gitcode
GitCode Notebook 昇腾 910B NPU 平台 ops-transformer 算子:全场景性能测试与验证及与原生 PyTorch 注意力的深度性能对比基于 GitCode Notebook 昇腾 910B + CANN 8.2.rc1 环境,聚焦 ops-transformer 算子的完整部署与性能验证,通过清晰的环境配置、依赖安装、多场景性能测试及与原生 PyTorch 注意力的对比实验,直观呈现其在低时延、高吞吐量及显存优化上的核心优势,为 LLM 训练 / 推理等 NLP 任务提供高效、可落地的算子应用参考