transformer

周杰伦_Jay1 天前
人工智能·算法·机器学习·生成对抗网络·分类·数据挖掘·transformer
简洁明了:介绍大模型的基本概念(大模型和小模型、模型分类、发展历程、泛化和微调)亲爱的家人们,创作很不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:fn_kobe@163.com
SpikeKing1 天前
人工智能·llm·transformer·plm·scalinglaws
LLM - 大模型 ScallingLaws 的指导模型设计与实验环境(PLM) 教程(4)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145323420
编码浪子1 天前
人工智能·深度学习·transformer
Transformer的编码机制假设我们正在读一本书,并且这本书里的每个词都需要被理解和记住。接下来,我们将通过一个具体的例子和代码片段来说明Transformer编码器的工作流程。
AI浩1 天前
人工智能·深度学习·计算机视觉·transformer
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因FFN(前馈神经网络)在Transformer模型中先升维再降维的设计具有多方面的重要原因,以下是对这些原因的总结:
跟德姆(dom)一起学AI2 天前
人工智能·python·rnn·深度学习·自然语言处理·transformer
0基础跟德姆(dom)一起学AI 自然语言处理18-解码器部分实现解码器部分:学习了解码器层的作用:学习并实现了解码器层的类: DecoderLayer
好评笔记2 天前
论文阅读·深度学习·机器学习·计算机视觉·面试·aigc·transformer
AIGC视频扩散模型新星:Video 版本的SD模型大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍慕尼黑大学携手 NVIDIA 等共同推出视频生成模型 Video LDMs。NVIDIA 在 AI 领域的卓越成就家喻户晓,而慕尼黑大学同样不容小觑,他们深度参与了最初 SD 系列图像生成模型的研发,在扩散模型领域,展现出了强劲实力 。
周杰伦_Jay3 天前
数据结构·人工智能·深度学习·架构·transformer·llama
Ollama能本地部署Llama 3等大模型的原因解析(ollama核心架构、技术特性、实际应用)亲爱的家人们,创作很不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:fn_kobe@163.com
好评笔记3 天前
论文阅读·人工智能·深度学习·机器学习·计算机视觉·aigc·transformer
AIGC视频生成模型:ByteDance的PixelDance模型大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance,论文于2023年11月发布,模型上线于2024年9月,同时期上线的模型还有Seaweed(论文未发布)。
珊珊而川3 天前
人工智能·bert·transformer
BERT和Transformer模型有什么区别BERT(Bidirectional Encoder Representations from Transformers)和Transformer都是自然语言处理(NLP)领域的重要模型,它们之间的区别主要体现在以下几个方面:
feifeikon4 天前
人工智能·深度学习·transformer
深度学习 DAY2:Transformer(一部分)前言 Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。
无意21215 天前
人工智能·自动驾驶·transformer
【自动驾驶BEV感知之Transformer】欢迎大家关注我的B站:偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com)
bug404_5 天前
人工智能·深度学习·transformer
Restormer: Efficient Transformer for High-Resolution Image Restoration解读论文地址:Restormer: Efficient Transformer for High-Resolution Image Restoration。
GISer Liu5 天前
人工智能·python·gpt·深度学习·机器学习·语言模型·transformer
Transformer详解:Attention机制原理Hello,大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者,本系列文章是作者参加DataWhale2025年1月份学习赛,旨在讲解Transformer模型的理论和实践。😲
王了了哇5 天前
人工智能·pytorch·深度学习·计算机视觉·transformer
精度论文:【Focaler-IoU: More Focused Intersection over Union Loss】原文地址:官方论文地址 代码地址:官方代码地址摘要——边界框回归在目标检测领域中起着至关重要的作用,目标检测的定位精度在很大程度上依赖于边界框回归的损失函数。 现有研究通过利用边界框之间的几何关系来提升回归性能,但忽略了困难样本与易样本分布对边界框回归的影响。在本文中,我们分析了困难样本与易样本分布对回归结果的影响,并提出了Focaler-IoU,该方法通过聚焦不同的回归样本,能够在不同的检测任务中提高检测器的性能。最后,我们在不同检测任务中使用现有的先进检测器和回归方法进行了对比实验,结果表明,采用本文
机器学习之心6 天前
lstm·transformer·nsgaii工艺参数优化·工程设计优化
强推未发表!3D图!Transformer-LSTM+NSGAII工艺参数优化、工程设计优化!1.Transformer-LSTM+NSGAII多目标优化算法,工艺参数优化、工程设计优化!(Matlab完整源码和数据) Transformer-LSTM模型的架构:输入层:多个变量作为输入,形成一个多维输入张量。Transformer编码器:该编码器由多个Transformer编码器层组成,每个编码器层包含多头注意力机制和前馈网络。编码器层用于学习变量之间的关系。LSTM层:在Transformer编码器之后,将输出序列输入到LSTM层中。LSTM层用于处理序列,记忆先前的状态,并生成隐藏状态序列。
goomind6 天前
人工智能·深度学习·llm·nlp·transformer
Transformer之Decoder在开始处理输入序列之前,模型对输出嵌入进行向右偏移一个位置,确保在训练阶段,解码器内的每个符号都能正确地获取之前生成符号的上下文信息。
fydw_7156 天前
学习·架构·transformer
如何学习Transformer架构Transformer架构自提出以来,在自然语言处理领域引发了革命性的变化。作为一种基于注意力机制的模型,Transformer解决了传统序列模型在并行化和长距离依赖方面的局限性。本文将探讨Transformer论文《Attention is All You Need》与Hugging Face Transformers库之间的关系,并详细介绍如何利用Hugging Face Transformers的代码深入学习Transformer架构。
听风吹等浪起6 天前
分类·transformer·迁移学习
第9章:基于Vision Transformer(ViT)网络实现的迁移学习图像分类任务:早期秧苗图像识别目录1. ViT 模型2. 早期秧苗分类2.1 数据集2.2 训练2.3 训练结果2.4 可视化网页推理
i鹰斯坦爱吃红烧you7 天前
人工智能·pytorch·python·深度学习·语言模型·自然语言处理·transformer
探索 Transformer²:大语言模型自适应的新突破目录一、来源:论文链接:https://arxiv.org/pdf/2501.06252代码链接:SakanaAI/self-adaptive-llms
Cpdr7 天前
人工智能·pytorch·深度学习·transformer
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition 中的空洞自注意力机制空洞自注意力机制本文针对DilateFormer中的空洞自注意力机制原理和代码进行详细介绍,最后通过流程图梳理其实现原理。