技术栈
transformer
艾醒(AiXing-w)
1 天前
语言模型
·
bert
·
transformer
探索大语言模型(LLM):Transformer 与 BERT从原理到实践
在自然语言处理(NLP)的发展历程中,Transformer 和 BERT 无疑是具有里程碑意义的技术。它们的出现,彻底改变了 NLP 领域的研究和应用格局。本文将深入探讨 Transformer 和 BERT 的背景、核心公式推导,并提供代码实现,帮助大家更好地理解和应用这两项技术。
机器鱼
2 天前
人工智能
·
pytorch
·
transformer
Pytorch的极简transformer用于时间序列预测
本博客来源于CSDN机器鱼,未同意任何人转载。更多内容,欢迎点击本专栏,查看更多内容。目录0.引言1.数据准备
乌旭
2 天前
人工智能
·
深度学习
·
yolo
·
transformer
·
边缘计算
·
gpu算力
边缘计算场景下的模型轻量化:TensorRT部署YOLOv7的端到端优化指南
在边缘设备(如Jetson系列)部署YOLOv7需兼顾模型精度、推理速度与功耗限制三重约束。TensorRT作为NVIDIA官方推理加速库,通过算子融合、量化压缩和内存复用等优化技术,可将模型推理速度提升2-5倍。其核心优化路径包括:
__Chuya
2 天前
人工智能
·
深度学习
·
transformer
transformer注意力机制
batch_size: 一次输入的句子数。 seq_len: 每个句子的词数。 d_model: 每个词的表示维度,比如 512。 d_k 是 Query 和 Key 向量的维度。
机器学习之心
2 天前
支持向量机
·
lstm
·
transformer
·
时间序列预测
时序预测 | Transformer-LSTM-SVM时间序列预测(Matlab完整源码和数据,适合基础小白研究)
1.Matlab实现Transformer-LSTM-SVM时间序列预测,Transformer-长短期记忆神经网络-支持向量机时间序列预测;
进取星辰
3 天前
pytorch
·
深度学习
·
transformer
PyTorch 深度学习实战(38):注意力机制全面解析(从Seq2Seq到Transformer)
输出为:输出为:信息瓶颈突破:从固定长度上下文到动态注意力分配计算效率提升:从RNN的O(n)序列计算到Transformer的并行化
mex_wayne
5 天前
人工智能
·
学习
·
transformer
基础学习:(6)nanoGPT
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档看到一个很火的学习开源项目 nano gpt,换换思维,学习下nano gpt 这是我个人仓库,里面很多内容已经build 好,如果有不对的也欢迎大家指正. 我个人非常喜欢<斗破苍穹>, 因此用了土豆老师的斗破苍穹的小说作为训练样本(非商业用途),如有不敬书迷给你磕一个.
风筝超冷
6 天前
深度学习
·
gpt-3
·
transformer
面试篇 - GPT-3(Generative Pre-trained Transformer 3)模型
与GPT-2一样,但是应用了Sparse attention:Dense attention:每个token之间两两计算attention,复杂度为O(n2)。
寻丶幽风
6 天前
论文阅读
·
笔记
·
深度学习
·
语言模型
·
transformer
论文阅读笔记——Multi-Token Attention
MTA 论文 在 Transformer 中计算注意力权重时,仅依赖单个 Q 和 K 的相似度,无法有效捕捉多标记组合信息。(对于 A、B 两个词,单标记注意力需要分别计算两个词的注意力分数,再通过后处理定位共同出现的位置或通过多层隐式堆叠,增加模型深度和容量)。MTA 显示建模多标记依赖,同时不牺牲全局交互和额外参数。(通过卷积运算让他能够看到邻近的Q、K 以及其他注意力头的信息)
hanfeng5268
7 天前
pytorch
·
目标检测
·
transformer
基于PyTorch的DETR(Detection Transformer)目标检测模型
以下是一个基于PyTorch的DETR(Detection Transformer)目标检测模型的实现代码。
胡攀峰
7 天前
人工智能
·
语言模型
·
自然语言处理
·
transformer
第3章研究大型语言模型的内部情况
现在我们已经对分词和词嵌入有了基本认识,接下来可以更深入地探讨语言模型的工作原理。本章我们将解析Transformer语言模型的核心技术原理,重点聚焦文本生成模型,以帮助读者特别加深对生成式大语言模型(LLMs)运作机制的理解。
寻丶幽风
8 天前
论文阅读
·
笔记
·
语言模型
·
transformer
·
稀疏自注意力
论文阅读笔记——Generating Long Sequences with Sparse Transformers
Sparse Transformer 论文 解决了 Transformer 在长序列建模时的计算开销和内存过大的问题。 可视化了一个 128 层自注意力在 CIFAR-10 的数据集上学习到的注意力模式,发现:1)稀疏性普遍存在:大多数层在多数数据点上表现出稀疏注意力;2)例外:部分层想要捕捉全局依赖关系。Transformer 的注意力机制呈现了和卷积模型类似的归纳偏置,即浅层的网络倾向于提取纹理信息,深层的网络倾向于提取语义信息。
pen-ai
8 天前
人工智能
·
自然语言处理
·
transformer
【NLP】 21. Transformer整体流程概述 Encoder 与 Decoder架构对比
Transformer 模型的整个处理流程可以概括为从自注意力(Self-Attention)到多头注意力,再加上残差连接、层归一化、堆叠多层的结构。其核心思想是利用注意力机制对输入进行并行计算,从而避免传统 RNN 逐步依赖导致的并行化困难问题。
終不似少年遊*
10 天前
人工智能
·
自然语言处理
·
大模型
·
nlp
·
transformer
·
注意力机制
【NLP解析】多头注意力+掩码机制+位置编码:Transformer三大核心技术详解
目录多头注意力:让模型化身“多面手”技术细节:多头注意力如何计算?实际应用:多头注意力在Transformer中的威力
深度学习算法与自然语言处理
10 天前
深度学习
·
算法
·
大模型
·
微调
·
transformer
·
面试题
单卡4090微调大模型 DeepSeek-R1-32B
之前文章同样的方法,也可以在 24G 显存的单卡 4090 上微调训练 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B;即使该模型的权重文件大小已经达到 62G,这是因为 unsloth 和 lora 的量化微调和部分参数微调优化可以大幅节约显存占用。
Jeremy_lf
10 天前
人工智能
·
文生图
·
transformer
·
多模态
·
扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统
论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
橙色小博
11 天前
人工智能
·
深度学习
·
神经网络
·
机器学习
·
transformer
Transformer模型解析与实例:搭建一个自己的预测语言模型
目录1. 前言2. Transformer 的核心结构2.1 编码器(Encoder)2.2 解码器(Decoder)
仙人掌_lz
11 天前
开发语言
·
人工智能
·
python
·
ai
·
transformer
·
多模态
使用Python从零实现一个端到端多模态 Transformer大模型
嘿,各位!今天咱们要来一场超级酷炫的多模态 Transformer 冒险之旅!想象一下,让一个模型既能看懂图片,又能理解文字,然后还能生成有趣的回答。听起来是不是很像超级英雄的超能力?别急,咱们这就来实现它!
点我头像干啥
11 天前
人工智能
·
深度学习
·
transformer
基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理
下面我将介绍如何使用Hugging Face的Transformer框架对微调后的Qwen或DeepSeek模型进行非流式批量推理。
橙色小博
12 天前
人工智能
·
python
·
gpt
·
深度学习
·
神经网络
·
transformer
GPT:Transformer的专精产品
目录1. 前言2. GPT与Transformer的对比2.1 Transformer架构2.2 GPT架构