transformer

小超同学你好1 天前
人工智能·深度学习·transformer
Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算摘要:本文在 Decoder Only Transformer 与 LLaMA 架构 的统一框架下,系统介绍 Gemma 1(2B / 7B) 的架构与每一步的矩阵维度与运算。内容包括:Gemma 1 的定位(与 Gemini 技术同源的开源 Decoder-only 文本模型)、从文本到解码器的数据流(SentencePiece 词表、嵌入、无在嵌入上相加的绝对位置向量)、单层 Decoder 内的 Pre-Norm + RMSNorm、带掩码自注意力(7B 为 MHA,2B 为 MQA)与 RoPE、
lin_dec+1 天前
nlp·transformer·vllm·大模型推理·kv cache
KV Cache:大模型推理加速的关键技术目录1、为什么需要 KV Cache?先搞懂大模型的文本生成模式2、不使用 KV Cache 时,到底有多少冗余计算?
机器学习之心1 天前
深度学习·gru·transformer·门控循环单元·编码器·二次分解
CEEMDAN-VMD-Transformer-GRU二次分解+编码器+门控循环单元多元时间序列预测实际工程与科学数据(如振动信号、电力负荷、金融时序)常呈现非线性、非平稳特征,单一预测模型难以充分提取多尺度信息。为此,结合自适应信号分解(CEEMDAN、VMD)与深度学习(Transformer、GRU)成为提升预测精度的有效手段。本代码实现了一套“分解-聚类-再分解-分量预测-重构”的完整流程,旨在提高复杂时间序列的预测性能。
wd5i8kA8i1 天前
人工智能·深度学习·transformer
Transformer 与模型架构原理Transformer 采用 Encoder-Decoder 架构,但两者都由相同的 Layer 堆叠而成。
小码吃趴菜1 天前
人工智能·深度学习·transformer
Transformer 视频学习笔记这段视频主要讲的是 Transformer 的整体结构,以及输入嵌入层、编码器、解码器、输出层这四大模块分别在做什么。 如果用一句话总结:
小超同学你好2 天前
人工智能·语言模型·架构·transformer
Transformer 20. Qwen 3 架构介绍:模块详解与相对 Qwen 1 / Qwen 2 的演进摘要:本文基于 Qwen3 Technical Report(arXiv:2505.09388),按数据流自洽展开:§2 给出 整体架构总览(Decoder-only 数据流、单 Block 示意,便于与社区导读对照);继而从 Tokenizer、Embedding、绑权 写到 单层 Decoder 内的 RMSNorm、GQA、RoPE、QK-Norm、因果注意力、SwiGLU FFN、输出层,并说明 长上下文(三阶段预训练、RoPE 基频 ABF、YARN、DCA)、MoE(128 路由专家、top-
人工智能培训2 天前
人工智能·深度学习·机器学习·transformer·知识图谱
系统集成与计算效率问题探析在数字经济高速迭代的今天,系统集成已成为企业数字化转型的核心支撑,其本质是将分散的硬件设备、软件模块、数据资源与业务流程有机融合,构建统一协同的运行体系。而计算效率作为衡量系统性能的关键指标,直接决定了系统响应速度、资源利用率与业务处理能力,二者相辅相成、辩证统一。系统集成的科学性的直接影响计算效率的发挥,而计算效率的优化需求,又推动着系统集成技术的持续升级。当前,随着大数据、人工智能、工业互联网等技术的普及,系统规模不断扩大、异构设备日益增多,系统集成中的计算效率瓶颈逐渐凸显,成为制约企业数字化发展的重
小超同学你好2 天前
语言模型·架构·transformer·llama
Transformer 21. 从 LLaMA 到 Qwen:Rotary Position Embedding(RoPE)与 YaRN 一文读懂摘要:RoPE(Rotary Position Embedding)把「位置」编码进注意力分数的方式,从「在词向量上加一根位置向量」改成「在每一层对 Q、K 做几何旋转」。本文先讲为什么要这样设计(相对位置、外推动机),再给出二维一对的公式与为何点积只依赖相对距离的推导;最后说明 YaRN 如何在做长文外推时重缩放注意力,并与 Decoder Only Transformer、LLaMA 架构、Qwen 1 / Qwen 1.5、Qwen 2 及社区读物中的叙述对齐。
机器学习之心2 天前
深度学习·神经网络·transformer·双重分解·多元时间序列预测
CEEMDAN-VMD-Transformer-BiLSTM双重分解+编码器+双向长短期记忆神经网络多元时间序列预测时间序列预测在金融、气象、电力负荷、设备故障诊断等领域具有广泛应用。实际信号往往具有非线性、非平稳、多尺度特征,单一预测模型难以捕捉其复杂动态特性。为此,研究者常采用信号分解 + 深度学习的混合建模方法。本代码实现了一种结合:
ZhouDevin2 天前
人工智能·python·算法·目标检测·计算机视觉·transformer
【算法实战】DEIMv2全流程复现官方仓库 https://github.com/Intellindust-AI-Lab/DEIMv2我自己用micromamba管理环境,大家换成conda也可以,只要是python=3.11.9就好
带娃的IT创业者2 天前
人工智能·gpt·深度学习·神经网络·架构·nlp·transformer
期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)📚 《从零到一造大脑:AI架构入门之旅》专栏专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块:
wei_shuo3 个月前
pytorch·transformer·gitcode
GitCode Notebook 昇腾 910B NPU 平台 ops-transformer 算子:全场景性能测试与验证及与原生 PyTorch 注意力的深度性能对比基于 GitCode Notebook 昇腾 910B + CANN 8.2.rc1 环境,聚焦 ops-transformer 算子的完整部署与性能验证,通过清晰的环境配置、依赖安装、多场景性能测试及与原生 PyTorch 注意力的对比实验,直观呈现其在低时延、高吞吐量及显存优化上的核心优势,为 LLM 训练 / 推理等 NLP 任务提供高效、可落地的算子应用参考
WHS-_-20223 天前
深度学习·transformer
Neural Representation for Wireless Radiation Field Reconstruction (II)如第六节和第七节所示,所提出的 WRF-GS 框架在重建 WRF 和合成用于无线信道建模的空间频谱方面表现出显著的有效性。然而, WRF-GS 在精确建模高频信号变化方面面临局限性,因为 WRF-GS 中 3D 高斯的静态特性限制了其捕捉由复杂多径效应引起的信道快速变化的能力。
西西弗Sisyphus3 天前
langchain·prompt·transformer·vllm·enforce_eager
大模型运行的 enforce_eager 参数flyfishenforce_eager=True: vLLM 完全走纯 PyTorch Eager 执行。 每次生成 token 都正常调用 model.forward(),没有捕获 Graph。保留了所有 kernel launch 开销。 Eager Mode(急切模式 / 即时执行模式): 代码写到哪里,PyTorch 就立刻执行到哪里。 每调用一次 model(x),就立即把所有操作(kernel)逐个发给 GPU 执行,Python → C++ → CUDA Driver 的调用链是实时的、一
丰海洋3 天前
人工智能·深度学习·transformer
Transformer参数量1. Token Embedding:嵌入层的作用是将输入的词或标记转换为固定维度的向量。假设词汇表的大小为 V,嵌入向量的维度为 d_model。那么嵌入层的参数量就是 V × d_model
茴香豆的茴3 天前
transformer
手撕 Transformer (3):编码器的实现我们在结构拆解那篇文章中讲过,Transformer 可分为四个部分:输入、输出、编码器、解码器。上篇文章介绍了输入部分的代码实现和原理讲解。 本文介绍编码器部分的代码实现和原理讲解。回顾一下,我们之前介绍过 Transformer 的编码器。它由 N 个编码器层堆叠而成;每个编码器层由 2 个子层组成;第一个子层由多头自注意力(Multi-Head Self-Attention,下图中的 Multi-Head Attention)和层归一化(Layer Normalization,下图中的 Norm),
盼小辉丶3 天前
深度学习·计算机视觉·transformer
Transformer实战——视觉提示模型提示模型 (Prompt-based models) 在人工智能的许多领域中备受关注。这类模型能够以某种模式作为指导,并通过理解该模式生成相应的输出。提示可以是多种形式或数据格式,包括文本提示和视觉提示。文本提示是一段自由文本,用于指示模型应执行的任务或输出的内容;而视觉提示则是一种视觉引导,帮助模型理解任务或指令本身。
机器学习之心3 天前
神经网络·lstm·transformer
CEEMDAN-VMD-Transformer-LSTM双重分解+编码器+长短期记忆神经网络多元时间序列预测针对非平稳、非线性时间序列(如电力负荷、风速、股票价格、设备振动信号等)预测精度低的问题,传统单一分解方法(如EMD、EEMD)存在模态混叠、端点效应等缺陷,单一深度学习模型(如LSTM)难以充分提取复杂时序特征。本代码采用CEEMDAN(完全自适应噪声集合经验模态分解)与VMD(变分模态分解) 相结合的二级分解策略,并融合Transformer与LSTM构建混合预测模型,以提升预测精度和泛化能力。
Flying pigs~~3 天前
人工智能·语言模型·自然语言处理·大模型·llm·transformer
从“计数”到“对话”:一文读懂语言模型与大语言模型 (LLM)你是否好奇过,为什么 ChatGPT 能跟你流畅对话?为什么搜索引擎能自动补全你的问题?这背后都离不开一个关键技术——语言模型。本文将从基础概念出发,带你回顾语言模型从简单统计到万亿参数的进化历程,并了解如何评估它们的好坏。
renhongxia13 天前
人工智能·深度学习·游戏·microsoft·语言模型·自然语言处理·transformer
基于角色的大型语言模型框架,用于从健康食品政策中提取结构化信息摘要 当前,在健康食品政策领域,使用大型语言模型进行信息提取的方法常常受到多种因素的阻碍,包括由政策文档的结构多样性和不一致性所引发的错误信息,具体表现为幻觉、错误分类和遗漏。