transformer

carver w1 天前
人工智能·深度学习·transformer
transformer 手写数字识别上述代码在配置环境之后可以直接执行requirements.txttorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 numpy==1.24.3 pillow==10.4.0 matplotlib==3.7.5 seaborn==0.13.2 scikit-learn==1.3.2 scipy==1.10.1 pandas==2.0.3 opencv-python==4.12.0.88 tqdm==4.67.1
郭庆汝2 天前
笔记·自然语言处理·transformer
(三)自然语言处理笔记——Transformer
谏书稀3 天前
python·transformer·llama
LLaMA Factory微调大模型本文使用的环境:linux、无网离线环境安装成功后会输出版本号LLaMA Factory有web页面,也可以命令行运行。web页面的本质是图形化设置各项训练参数,生成训练命令进行执行。
wa的一声哭了3 天前
android·java·javascript·pytorch·深度学习·语言模型·transformer
hf中transformers库中generate的greedy_searchgreedy_search的返回值和GenerationMixin的generate的返回值是一样的,因为实际上generate函数是通过调用greedy_search来生成内容的。可以看到如果参数return_dict_in_generate为False,那么返回的内容应该就是一个生成的input_ids的tuple,如果为True,那么会将scores、hidden_states、attentions封装成一个字典类返回。
居7然3 天前
人工智能·分布式·架构·大模型·transformer
详解监督微调(SFT):大模型指令遵循能力的核心构建方案监督微调(SFT)作为大模型从通用预训练迈向特定任务适配的关键环节,通过特定任务的标签数据集,让预训练LLM习得指令遵循能力,无需依赖海量特定领域数据即可实现任务适配。本文将从核心概念、数据处理、模型训练到评估体系,全面拆解SFT的实践逻辑与关键要点。
高洁014 天前
深度学习·算法·aigc·transformer·知识图谱
大模型-详解 Vision Transformer (ViT) (2大模型-详解 Vision Transformer (ViT) (2)1.可学习的嵌入 (Learnable Embedding)
DatGuy5 天前
人工智能·深度学习·transformer
Week 24: 深度学习补遗:Vision Transformer (ViT) 复现本周对经典的ViT论文进行了复现,对于其Patch Embedding的相关理念进行了较为深入的理解。通过利用上周编写的Transformer模块进行快速复现,提高复现效率并且深入理解了ViT对Transformer的应用以及异同。
潘帕斯的雄鹰5 天前
python·transformer·注意力机制·自注意力机制
直观理解注意力机制传统的注意力机制在encoder-decoder架构中提出,是decoder在做输出预测的时候,考虑encoder中的输入,而不仅仅考虑当前的状态。这样优化了传统RNN模型随着序列增加信息丢失的问题。 传统注意力机制的QKV来自于跨序列,即K/V来自编码器中的输入向量,Q来自解码器中的输出向量。
机器学习之心5 天前
matlab·lstm·transformer·多变量时间序列预测
BKA-Transformer-LSTM多变量时间序列预测Matlab实现这是一个基于BKA优化的Transformer-LSTM混合神经网络的时间序列预测模型。主要功能包括:
Mr_Oak5 天前
人工智能·深度学习·神经网络·算法·计算机视觉·transformer·对比学习
【multi-model】moco系列&SimCLR&BEiTmoco和SimCLR都属于对比学习,对比学习是属于无监督学习,不需要手动标注label,通过对原图像进行增强,产生新的图像,和其他图像做对比来计算loss,使同一张图片增强之后的两者之间的loss更近,不同图片之间的loss更远; 一、moco 关键词:内存银行、动量更新、队列 流程结构: 注意: 1、x_q和x_k是x0经过的不同的图像增强 2、Encoder和Momentum encoder的结构是一样的,为了保证编码的维度一致 3、Momentum encoder更新公式:θ_k = m*θ_k
CV炼丹术5 天前
图像处理·人工智能·cnn·transformer
AAAI 2025 | 川大提出Mesorch:CNN与Transformer并行架构,革新图像篡改检测!点击原文,查看更多论文精读如今,图像篡改技术越来越逼真,如何准确识别和定位图像中被篡改的区域成为一个重要课题。现有的方法大多只关注图像的微观痕迹(如噪声、边缘)或宏观语义(如物体内容),难以同时捕捉篡改留下的细微痕迹和整体语义变化,导致定位效果不佳。
出门吃三碗饭6 天前
人工智能·深度学习·transformer
Transformer前世今生——使用pytorch实现多头注意力(八)随着AI市场,生成模型的投资热,小编在这里也开了一个Transformer的讲解系列,因为目前主流的大模型其核心都是Transformer,attention is all you need.本系列将介绍Transformer的算法原理以及使用pytorch的实现.
少林码僧6 天前
人工智能·gpt·ai·大模型·bert·transformer·1024程序员节
2.3 Transformer 变体与扩展:BERT、GPT 与多模态模型在深度学习与自然语言处理领域,Transformer 架构无疑是最具革命性的突破之一。自从2017年 Vaswani 等人提出原始 Transformer 模型以来,各种基于 Transformer 的变体如雨后春笋般涌现,彻底改变了自然语言处理的格局。
NCU_wander6 天前
rnn·lstm·transformer
rnn lstm transformer mamba深度序列建模发展史的主干脉络:从最早的 RNN(循环神经网络),到 LSTM(长短期记忆网络),再到 Mamba(Selective State Space Model),每一次迭代都解决了前一代的核心缺陷。
听风吹等浪起7 天前
人工智能·深度学习·cnn·transformer
基于改进TransUNet的港口船只图像分割系统研究本报告详细介绍了基于改进TransUNet架构的港口船只图像分割系统的设计与实现。该系统结合了传统卷积神经网络与Transformer的优势,通过引入空间注意力机制和特征金字塔注意力模块,显著提升了港口复杂场景下船只分割的准确性和鲁棒性。
跳跳糖炒酸奶7 天前
人工智能·自然语言处理·大模型·transformer·gpt1
第十章、GPT1:Improving Language Understanding by Generative Pre-Training(代码部分)对于代码部分首先先把代码运行起来,其次逐块来看每部分代码在做什么。论文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
高洁017 天前
人工智能·python·深度学习·神经网络·transformer
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)
盼小辉丶7 天前
人工智能·深度学习·自然语言处理·transformer
Transformer实战(24)——通过数据增强提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过数据增强技术将模型性能提升到超越普通训练流程的水平。数据增强广泛应用于提高深度学习模型的准确性,通过增强数据样本,深度学习模型能够更有效地捕捉数据中的潜在模式和关系。
2401_841495648 天前
人工智能·python·gpt·深度学习·语言模型·自然语言处理·transformer
【自然语言处理】生成式语言模型GPT复现详细技术方案目录一、引言:GPT模型复现的背景与意义二、生成式语言模型GPT的理论基础三、GPT模型架构的详细设计
三排扣8 天前
pytorch·python·transformer
手搓transformer