transformer

艾醒(AiXing-w)1 天前
语言模型·bert·transformer
探索大语言模型(LLM):Transformer 与 BERT从原理到实践在自然语言处理(NLP)的发展历程中,Transformer 和 BERT 无疑是具有里程碑意义的技术。它们的出现,彻底改变了 NLP 领域的研究和应用格局。本文将深入探讨 Transformer 和 BERT 的背景、核心公式推导,并提供代码实现,帮助大家更好地理解和应用这两项技术。
机器鱼2 天前
人工智能·pytorch·transformer
Pytorch的极简transformer用于时间序列预测本博客来源于CSDN机器鱼,未同意任何人转载。更多内容,欢迎点击本专栏,查看更多内容。目录0.引言1.数据准备
乌旭2 天前
人工智能·深度学习·yolo·transformer·边缘计算·gpu算力
边缘计算场景下的模型轻量化:TensorRT部署YOLOv7的端到端优化指南在边缘设备(如Jetson系列)部署YOLOv7需兼顾模型精度、推理速度与功耗限制三重约束。TensorRT作为NVIDIA官方推理加速库,通过算子融合、量化压缩和内存复用等优化技术,可将模型推理速度提升2-5倍‌。其核心优化路径包括:
__Chuya2 天前
人工智能·深度学习·transformer
transformer注意力机制batch_size: 一次输入的句子数。 seq_len: 每个句子的词数。 d_model: 每个词的表示维度,比如 512。 d_k 是 Query 和 Key 向量的维度。
机器学习之心2 天前
支持向量机·lstm·transformer·时间序列预测
时序预测 | Transformer-LSTM-SVM时间序列预测(Matlab完整源码和数据,适合基础小白研究)1.Matlab实现Transformer-LSTM-SVM时间序列预测,Transformer-长短期记忆神经网络-支持向量机时间序列预测;
进取星辰3 天前
pytorch·深度学习·transformer
PyTorch 深度学习实战(38):注意力机制全面解析(从Seq2Seq到Transformer)输出为:输出为:信息瓶颈突破:从固定长度上下文到动态注意力分配计算效率提升:从RNN的O(n)序列计算到Transformer的并行化
mex_wayne5 天前
人工智能·学习·transformer
基础学习:(6)nanoGPT提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档看到一个很火的学习开源项目 nano gpt,换换思维,学习下nano gpt 这是我个人仓库,里面很多内容已经build 好,如果有不对的也欢迎大家指正. 我个人非常喜欢<斗破苍穹>, 因此用了土豆老师的斗破苍穹的小说作为训练样本(非商业用途),如有不敬书迷给你磕一个.
风筝超冷6 天前
深度学习·gpt-3·transformer
面试篇 - GPT-3(Generative Pre-trained Transformer 3)模型与GPT-2一样,但是应用了Sparse attention:Dense attention:每个token之间两两计算attention,复杂度为O(n2)。
寻丶幽风6 天前
论文阅读·笔记·深度学习·语言模型·transformer
论文阅读笔记——Multi-Token AttentionMTA 论文 在 Transformer 中计算注意力权重时,仅依赖单个 Q 和 K 的相似度,无法有效捕捉多标记组合信息。(对于 A、B 两个词,单标记注意力需要分别计算两个词的注意力分数,再通过后处理定位共同出现的位置或通过多层隐式堆叠,增加模型深度和容量)。MTA 显示建模多标记依赖,同时不牺牲全局交互和额外参数。(通过卷积运算让他能够看到邻近的Q、K 以及其他注意力头的信息)
hanfeng52687 天前
pytorch·目标检测·transformer
基于PyTorch的DETR(Detection Transformer)目标检测模型以下是一个基于PyTorch的DETR(Detection Transformer)目标检测模型的实现代码。
胡攀峰7 天前
人工智能·语言模型·自然语言处理·transformer
第3章研究大型语言模型的内部情况现在我们已经对分词和词嵌入有了基本认识,接下来可以更深入地探讨语言模型的工作原理。本章我们将解析Transformer语言模型的核心技术原理,重点聚焦文本生成模型,以帮助读者特别加深对生成式大语言模型(LLMs)运作机制的理解。
寻丶幽风8 天前
论文阅读·笔记·语言模型·transformer·稀疏自注意力
论文阅读笔记——Generating Long Sequences with Sparse TransformersSparse Transformer 论文 解决了 Transformer 在长序列建模时的计算开销和内存过大的问题。 可视化了一个 128 层自注意力在 CIFAR-10 的数据集上学习到的注意力模式,发现:1)稀疏性普遍存在:大多数层在多数数据点上表现出稀疏注意力;2)例外:部分层想要捕捉全局依赖关系。Transformer 的注意力机制呈现了和卷积模型类似的归纳偏置,即浅层的网络倾向于提取纹理信息,深层的网络倾向于提取语义信息。
pen-ai8 天前
人工智能·自然语言处理·transformer
【NLP】 21. Transformer整体流程概述 Encoder 与 Decoder架构对比Transformer 模型的整个处理流程可以概括为从自注意力(Self-Attention)到多头注意力,再加上残差连接、层归一化、堆叠多层的结构。其核心思想是利用注意力机制对输入进行并行计算,从而避免传统 RNN 逐步依赖导致的并行化困难问题。
終不似少年遊*10 天前
人工智能·自然语言处理·大模型·nlp·transformer·注意力机制
【NLP解析】多头注意力+掩码机制+位置编码:Transformer三大核心技术详解目录多头注意力:让模型化身“多面手”技术细节:多头注意力如何计算?实际应用:多头注意力在Transformer中的威力
深度学习算法与自然语言处理10 天前
深度学习·算法·大模型·微调·transformer·面试题
单卡4090微调大模型 DeepSeek-R1-32B之前文章同样的方法,也可以在 24G 显存的单卡 4090 上微调训练 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B;即使该模型的权重文件大小已经达到 62G,这是因为 unsloth 和 lora 的量化微调和部分参数微调优化可以大幅节约显存占用。
Jeremy_lf10 天前
人工智能·文生图·transformer·多模态·扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
橙色小博11 天前
人工智能·深度学习·神经网络·机器学习·transformer
Transformer模型解析与实例:搭建一个自己的预测语言模型目录1. 前言2. Transformer 的核心结构2.1 编码器(Encoder)2.2 解码器(Decoder)
仙人掌_lz11 天前
开发语言·人工智能·python·ai·transformer·多模态
使用Python从零实现一个端到端多模态 Transformer大模型嘿,各位!今天咱们要来一场超级酷炫的多模态 Transformer 冒险之旅!想象一下,让一个模型既能看懂图片,又能理解文字,然后还能生成有趣的回答。听起来是不是很像超级英雄的超能力?别急,咱们这就来实现它!
点我头像干啥11 天前
人工智能·深度学习·transformer
基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理下面我将介绍如何使用Hugging Face的Transformer框架对微调后的Qwen或DeepSeek模型进行非流式批量推理。
橙色小博12 天前
人工智能·python·gpt·深度学习·神经网络·transformer
GPT:Transformer的专精产品目录1. 前言2. GPT与Transformer的对比2.1 Transformer架构2.2 GPT架构