transformer

飞Link20 小时前
人工智能·深度学习·重构·transformer
动态嵌入:Transformer 架构下的语义重构与演进在自然语言处理的演进史中,动态嵌入(Dynamic Embedding)代表了从静态查表到实时计算的范式转移。传统的向量化技术为每个词分配一个固定的坐标,而基于 Transformer 架构的动态嵌入则认为,一个词的含义不应由其自身孤立决定,而应由其所处的上下文环境动态生成。
码以致用2 天前
人工智能·深度学习·transformer
GPT架构详解:从Transformer到大型语言模型在人工智能领域,GPT(Generative Pre-trained Transformer,生成式预训练Transformer)无疑是近年来最具影响力的技术突破之一。从2018年GPT-1的首次亮相,到ChatGPT引发全球AI热潮,再到GPT-4展现出令人惊叹的多模态能力,GPT系列模型一直在刷新我们对自然语言处理可能性的认知。本文将深入剖析GPT的架构设计,探讨其背后的核心原理,帮助读者建立对这一革命性技术的系统性理解。
乐分启航2 天前
深度学习·算法·目标检测·transformer·迁移学习
【无标题】01论文介绍https://ieeexplore.ieee.org/document/11093633
枫叶林FYL2 天前
人工智能·自然语言处理·transformer
【自然语言处理 NLP】 Transformer架构与预训练(Transformer Architecture & Pretraining)目录4. Transformer架构与预训练(Transformer Architecture & Pretraining)
gregmankiw2 天前
android·深度学习·transformer
Nemotron架构(Mamba3+Transformer+Moe)Nemotron-Mamba3 is a hybrid architecture large language model combining Mamba3 State Space Model (SSM) with Transformer architecture and Mixture of Experts (MoE).
Hello world.Joey2 天前
人工智能·深度学习·神经网络·自然语言处理·nlp·aigc·transformer
Transformer解读**前馈神经网络主要是增强模型的非线性表达性你之前学的:输入 × 权重 + 偏置全是 线性计算(就是加减乘)。
DANGAOGAO3 天前
深度学习·学习·transformer
Transformer学习1.核心角色:Q,K,V到底在干什么?在 Multi-Head Attention (MHA) 机制中,每一个词(比如“中医”)都会通过线性变换生成三个身份:
骇客野人3 天前
人工智能·深度学习·transformer
用python实现Transformer要实现Transformer模型,我们可以使用PyTorch框架,因为它提供了丰富的张量操作和自动微分功能,适合构建深度学习模型。以下是一个完整的Transformer实现,包括编码器、解码器、注意力机制等核心组件:
小超同学你好3 天前
架构·transformer
Transformer 16. DeepSeek-V3 架构解析:在 MLA + DeepSeekMoE 上的规模化与训练/系统创新摘要:本文在 Decoder-only Transformer、LLaMA 架构、DeepSeek LLM、DeepSeekMoE 与 DeepSeek-V2 的基础上,系统介绍 DeepSeek-V3 的技术报告要点。V3 延续 Multi-head Latent Attention(MLA) 与 DeepSeekMoE 作为注意力与稀疏 FFN 的核心设计,并将规模提升到约 671B 总参数、每 token 约 37B 激活;在此基础上,论文强调三类与「规模化训练/推理」强相关的创新:无辅助损失的 M
西西弗Sisyphus3 天前
transformer
KV Cache 是如何降低大模型的Decode耗时的flyfish大模型推理的两个阶段:Prefill(预填充)和 Decode(解码) 大模型推理中 KV Cache为什么没有Q Cache
羊小猪~~4 天前
人工智能·深度学习·考研·算法·机器学习·transformer
【论文精度】Transformer---大模型基石博主简介:努力学习的22级本科生一枚 🌟 博客主页:羊小猪~~-CSDN博客 内容简介:探索AI算法,C++,go语言的世界;在迷茫中寻找光芒🌸 本文内容:精读Transformer论文,下一篇transformer论文复现。
韭菜盖饭4 天前
语言模型·自然语言处理·面试·transformer
大模型常见八股集合(带答案)整理一些常见八股问题,用于面试复习。因为 点积的数值会随着向量维度 (d_k) 增大而变大,如果不除以 d k \sqrt{d_k} dk ,softmax 很容易进入“过于尖锐”的区域,导致训练不稳定、梯度变小。
Tadas-Gao4 天前
人工智能·语言模型·自然语言处理·架构·大模型·llm·transformer
Mem0分层记忆系统:大语言模型长期记忆的架构革命与实现范式当前的主流大语言模型(如GPT系列、LLaMA等)虽然在单轮对话中表现出色,但在处理多轮、长程对话任务时,面临严重的记忆衰减和上下文长度限制问题。传统的做法是将整个对话历史作为上下文输入,但这会带来几个关键问题:
吴佳浩 Alben4 天前
运维·人工智能·pytorch·语言模型·transformer·vllm
GPU 生产环境实践:硬件拓扑、显存管理与完整运维体系本篇是系列第三篇。前两篇解决了 GPU 编号的问题。本篇进一步讨论生产环境中影响 GPU 性能的其他关键因素,包括硬件拓扑、PCIe 带宽、温度功耗、显存碎片化、混合精度选择,以及如何建立完整的服务启动、健康检查和日志管理运维体系。同时收录了排查过程中遇到的 chmod -r 事故,以及数据加载瓶颈的分析方法。
Hello.Reader5 天前
人工智能·深度学习·transformer
词语没有位置感?用“音乐节拍“给 Transformer 装上时钟——Positional Encoding 图解Self-Attention 的计算方式是:每个词的 Q 去和所有词的 K 做点积,然后加权求和。这个过程里,词的顺序根本没有参与计算。
吴佳浩 Alben5 天前
人工智能·pytorch·语言模型·transformer
CUDA_VISIBLE_DEVICES、多进程与容器化陷阱本篇是系列第二篇。第一篇介绍了 CUDA_DEVICE_ORDER 的基本概念与修复方法。本篇在此基础上,深入讲解 CUDA_VISIBLE_DEVICES 与 CUDA_DEVICE_ORDER 的叠加效应,分析多进程训练框架(torch.distributed、DeepSpeed)中的潜在陷阱,并介绍 Docker 和 Kubernetes 环境下的特殊处理方式,最后给出混合 GPU 环境下的正确架构设计思路。
造夢先森5 天前
人工智能·神经网络·transformer
【白话神经网络(三)】从Transformer到XXX首先回顾下之前的知识:【白话神经网络(一)】从函数到神经网络 【白话神经网络(二)】从CNN、RNN到Transformer
冰西瓜6006 天前
人工智能·深度学习·transformer
深度学习的数学原理(十九)—— 视觉Transformer(ViT)实战上一篇文章中,我们拆解了ViT的核心部件,尽管没有对核心原理进行过多探讨,但我们至少了解了各个部件的作用,本文中,我们将把这些部件拼接起来,构成完成的网络。
程序媛小鱼6 天前
gpt·深度学习·bert·transformer
从预训练到Transformer到GPT通过一个已经训练好的模型A,去完成一个小数据量的任务B(使用了模型A的浅层参数),前提是模型A与模型B相似