transformer

西西弗Sisyphus21 分钟前
语言模型·transformer·moe
一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的 Transformer 语言模型flyfish用稀疏混合专家(Sparse MoE)替代传统Transformer的全连接层一个基于稀疏混合专家模型(Sparse Mixture of Experts, Sparse MoE) 的Transformer语言模型
jerryinwuhan4 小时前
人工智能·深度学习·transformer
Transformer ViT 架构(转载)机器之心报道编辑:蛋酱 原文地址:https://cloud.tencent.com/developer/article/1963107
Xxtaoaooo6 小时前
人工智能·架构·音视频·transformer·sora
Sora文生视频技术拆解:Diffusion Transformer架构与时空建模原理人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
空白到白7 小时前
人工智能·深度学习·transformer
Transformer-解码器_编码器部分输入部分是Transformer处理原始文本的第一步,负责将离散的文本符号转化为包含语义和位置信息的连续向量。
强哥之神20 小时前
人工智能·语言模型·自然语言处理·transformer·openai·ray
浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构近年来,随着大语言模型(LLM)、多模态模型和生成式 AI 技术的快速演进,AI 工程体系正经历从“单点模型”向“端到端智能系统”的深刻转型。这一转型不仅带来了算法层面的突破,更对底层软件基础设施提出了前所未有的挑战:如何在保障高吞吐、低延迟的同时,支持快速迭代、弹性伸缩与多租户共享?如何让算法工程师专注于模型创新,而无需深陷资源调度与运维泥潭?
chxin140161 天前
pytorch·rnn·深度学习·transformer
Transformer注意力机制——动手学深度学习10环境:PyCharm + python3.8在注意力机制中,查询(Queries)、键(Keys) 和 值(Values) 的形状可以不同,但需满足一定的逻辑关系。
PKNLP1 天前
人工智能·深度学习·transformer
Transformer模型模型被提出时间模型优势架构图展示主要组成部分结构图组成部分结构图组成部分文本嵌入层作用:word_embedding
渡我白衣1 天前
人工智能·深度学习·transformer
深度学习进阶(一)——从 LeNet 到 Transformer:卷积的荣光与注意力的崛起如果要给深度学习画一条时间轴,那么 2012 年的 AlexNet 无疑是分水岭。那一年,ImageNet 图像识别比赛中,AlexNet 以巨大优势击败传统算法,深度学习这个在学术角落里沉睡多年的概念,一夜之间成为主角。
许泽宇的技术分享1 天前
chatgpt·transformer·大语言模型·nanochat
百刀打造ChatGPT:nanochat极简LLM全栈实现深度解析当ChatGPT横空出世,无数开发者在惊叹其强大能力的同时,也被其天文数字般的训练成本所震慑。动辄上千万美元的算力投入,让大模型训练成为了科技巨头的专利。但如果我告诉你,只需100美元,你就能从零开始训练一个属于自己的ChatGPT,你会相信吗?
高洁011 天前
python·深度学习·神经网络·transformer·知识图谱
大模型-去噪扩散概率模型(DDPM)采样算法详解大模型-去噪扩散概率模型(DDPM)采样算法详解一、背景知识 前向扩散过程 反向去噪过程二、前向扩散过程 公式定义 任意时刻 ( x_t ) 的闭式解
AI新兵2 天前
人工智能·自然语言处理·transformer
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(中)Transformer 架构最重要的贡献是推动了” 预训练 - 微调(Pre-training + Fine-tuning)” 范式的确立。这一范式彻底改变了 NLP 领域的研究和应用模式,标志着从 "特定任务特定模型" 向 "通用模型特定任务适配" 的根本性转变。
盼小辉丶2 天前
深度学习·自然语言处理·transformer
Transformer实战(22)——使用FLAIR进行语义相似性评估在自然语言处理中,句子表示的质量直接影响下游任务(如语义检索、文本聚类)的效果。在本节中,我们将通过 FLAIR 库对句子表示模型进行定性评估,该库极大地简化了获取文档嵌入的过程,系统评估四种主流句子嵌入方法——平均池化、循环神经网络编码、BERT 嵌入及 SBERT 嵌入,揭示其语义区分能力。
AI新兵3 天前
人工智能·自然语言处理·transformer
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(上)在 Transformer 架构出现之前,自然语言处理(NLP)领域长期被循环神经网络(RNN)及其变体所主导。RNN 因其循环结构能够天然地处理序列数据,在 NLP 任务中展现出独特优势。然而,随着研究的深入,RNN 的技术瓶颈逐渐显现,其中最突出的是长距离依赖问题和梯度消失 / 爆炸问题。
清风吹过3 天前
论文阅读·人工智能·深度学习·神经网络·lstm·transformer
LSTM新架构论文分享6:LSTM+Transformer融合上述转自:深度之眼https://www.researchgate.net/profile/Hechuan-Song2/publication/378037785_Enhanced_predictive_modeling_of hot_roling_work_roll_wear _using_TCN-LSTM.Attention/links/66175c2439e7641c0ba9f3ad/Enhanced-predictive-modeling-of-hot-rolling-work-rol-wear-
DatGuy4 天前
人工智能·深度学习·transformer
Week 20: 深度学习补遗:Transformer Decoder架构本周跟随李宏毅老师的课程学习了Transformer Decoder方面的内容,针对其设计理念以及运作方式进行了一定的了解。
沃恩智慧4 天前
人工智能·cnn·transformer
超越CNN和Transformer!Mamba结合多模态统领图像任务!多模态Mamba的研究正迎来爆发式进展!从ICASSP'2025的DepMamba到Visual Intelligence封面的FusionMamba,顶会顶刊成果频出,彻底打破了传统模型在跨模态融合与长序列处理中的效率瓶颈,已然成为AI领域的新风口。作为序列建模的革命性架构,Mamba凭借线性复杂度的长距离依赖建模能力,与多模态技术碰撞出创新火花,通过耦合状态空间、动态特征融合等机制,既保留各模态独立特性,又实现跨维度信息的深度交互,让医疗影像诊断、工业缺陷检测等场景的模型精度与推理速度同步跃升。
RanceGru4 天前
笔记·学习·stable diffusion·transformer
LLM学习笔记5——本地部署ComfyUI和Wan2.1-T2V-1.3B文生视频模型参考博客ComfyUI 是一个基于节点的 GUI,为 Stable Diffusion 等工作提供了一种更加直观、灵活的方式来操作和管理生成的过程。通过将不同的模块节点组合在一起,可以构建一个图像生成的工作流。就像有一块数字画布,可以通过连接不同的节点来构建自己独特的图像生成工作流,每个节点代表一个特定的功能或操作。
johnny2335 天前
transformer
Transformer基础之注意力机制注意力机制,指的是深度神经网络中的一个层,主要功能是学习大范围全局的特征,衡量事物之间的相似性。类似于信息路由器,决定输入序列的嵌入向量中哪些部分对输出的向量有贡献。
一车小面包5 天前
人工智能·深度学习·transformer
Transformer Decoder 中序列掩码(Sequence Mask / Look-ahead Mask)✅ 问题:“Transformer 的 Decoder 中,多头注意力得到注意力分数后,为什么需要序列掩码?为什么是上三角矩阵?序列是自己排序了吗?”
2401_841495645 天前
gpt·语言模型·自然语言处理·bert·transformer·大语言模型·预训练
预训练基础模型简介目录一、引言二、预训练和微调艺术基础 —— 预训练目标三、 Transformer 模型架构和自注意力