transformer

之墨_20 小时前
人工智能·语言模型·transformer
【大语言模型】—— Transformer的QKV及多头注意力机制图解解析当我们用神经网络做翻译任务时,如下 先用词嵌入的方式把每个词转为对应的词向量,假设维度为6 如果把每个词直接丢到一个全连接神经网络中,那每个词都没有上下文的信息,且长度只能一一对应
丁学文武3 天前
人工智能·深度学习·transformer
大模型原理与实践:第二章-Transformer架构_第2部分Encoder-Decoder架构第一章 NLP基础概念完整指南第二章 Transformer 架构原理第三章 预训练语言模型第四章 大语言模型
镰刀韭菜3 天前
llm·transformer·大语言模型·药物设计·分子发现·chemchat·smiles
【AI4S】大语言模型与化学的未来,以及整合外部工具和聊天机器人的潜力虽然近年来技术创新和变革日新月异,从根本上改变了我们对生物化学过程的认识,但化学领域仍花费大量时间和金钱——"10 年 "和 “3000 亿”——将新产品推向市场。这是由于实验室实验的高失败率、化学探索的广阔空间以及包括意外发现在内的强大运气成分。常见的情况是,设计一种分子,设计一条合成路线,并根据各种理论花费大量时间进行合成,却发现无法实现预期功能。然后,经过反复实验,可以说是机缘巧合的发现促成了新产品的诞生,如药品。
진영_3 天前
人工智能·深度学习·transformer
Transformer(一)---背景介绍及架构介绍目录一、Transformer的背景介绍1.1 Transformer的诞生1.2 Transformer的优势
东方芷兰3 天前
人工智能·笔记·神经网络·语言模型·自然语言处理·transformer
LLM 笔记 —— 01 大型语言模型修炼史(Self-supervised Learning、Supervised Learning、RLHF)大型语言模型在训练的过程中,需要不断调整超参数以实现效果的最佳化,因为训练可能会失败,需要更换一组超参数重新训练,超参数的数量是上亿级的,需要大量的算力支持。
丁希希哇4 天前
人工智能·深度学习·transformer
【论文精读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer论文:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
居7然5 天前
分布式·自然语言处理·架构·transformer·agent
JoyAgent-JDGenie深度评测:从开箱到实战,多智能体框架的工业级答卷本文较长,建议点赞收藏,以免遗失。更多AI大模型开发 学习视频/籽料/面试题 都在这>>Github<< >>Gitee<<
2401_841495645 天前
人工智能·python·深度学习·算法·自然语言处理·transformer·ut
【自然语言处理】Universal Transformer(UT)模型目录一、引言(一)并行时间递归结构:参数共享与全局-循环融合(二)自适应计算时间机制:动态资源分配与效率优化
凯子坚持 c6 天前
深度学习·自然语言处理·transformer
Transformer模型:深度解析自然语言处理的革命性架构自2017年由Google研究人员在论文《Attention Is All You Need》中提出以来,Transformer模型已经彻底改变了自然语言处理(NLP)的格局。 它摒弃了以往NLP任务中广泛使用的循环神经网络(RNN)和卷积神经网络(CNN)结构,完全基于自注意力(Self-Attention)机制来捕捉输入和输出之间的全局依赖关系。 这种创新的架构不仅在机器翻译等任务上取得了当时最先进的性能,更重要的是,其固有的并行计算能力极大地提升了训练效率,为后续BERT、GPT等大规模预训练语言模
盼小辉丶6 天前
人工智能·深度学习·transformer
Transformer实战(20)——微调Transformer语言模型进行问答任务问答 (Question Answering, QA) 是一种自然语言处理 (Natural Language Processing, NPL) 任务,其目标是在给定上下文文本的前提下,自动定位并生成对用户提问的准确回答。与视觉问答 (Visual Question Answering, VQA) 需要结合图像信息不同,纯文本 QA 完全依赖于文本上下文。本文将使用 SQuAD v2 数据集,详细讲解如何使用 DistilBERT 完成从数据预处理、模型微调,到模型保存的完整流程。
Bwcx_lzp7 天前
人工智能·深度学习·transformer
深度学习核心技术演进:从函数到 Transformer 架构事实上函数就是一种变换,对数据进行变换得到我们所需要的结果,如图 早期的人工智能是 符号主义,即用精确的函数来表示一切。但是很多时候,我们没办法找到一个精确的函数来描述某个关系,退而求其次选择一个近似解也不错,也就是说函数没必要精确的通过每一个点,它只需要最接近结果就好了,这就是联结主义。
小毕超8 天前
pytorch·transformer·moe
基于 PyTorch 完全从零手搓 GPT 混合专家 (MOE) 对话模型混合专家模型(MOE)是一种 Transformer 神经网络架构的变种,如 Switch Transformers 结构 ,它通过一个门控网络为每个输入动态地选择一小部分 “专家” 子网络进行计算,从而以稀疏激活的方式提升模型容量与计算效率。能够控制模型总参数量极大的情况下,单次前向传播的计算能保持在一个可控范围内。核心特点在于其 高参数、低计算 的稀疏性。与稠密模型在处理每个输入时激活所有参数不同,MOE模型仅激活总参数的一小部分 ,并且能够随着专家的增加容纳更加丰富的知识和更强的泛化能力。像 Mix
清风吹过8 天前
计算机视觉·机器人·transformer
因果&Transformer架构论文分享:机器人技术和计算机视觉的位姿估计视觉惯性里程计(VIO)问题:目标:估计一个智能体(如机器人、无人机、AR/VR设备)在空间中的6自由度位姿(3D位置和3D朝向)及其随时间的变化轨迹。
berling009 天前
论文阅读·深度学习·transformer
【论文阅读 | IF 2025 | LFDT-Fusion:潜在特征引导的扩散 Transformer 模型在通用图像融合中的应用】题目:LFDT-Fusion: A latent feature-guided diffusion Transformer model for general image fusion
网安INF9 天前
论文阅读·人工智能·深度学习·机器学习·transformer
【论文阅读】-《Attention Is All You Need》(Transformer)原文链接:https://arxiv.org/pdf/1706.03762主流的序列转导模型基于包含编码器和解码器的复杂循环或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优,同时更具可并行性,并且需要的训练时间显著减少。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 的 BLEU 分数,比现有最佳结果(包括集成模型)提高
人工智能培训9 天前
人工智能·深度学习·大模型·transformer·embedding·vision
Transformer-位置编码(Position Embedding)一、NLP transformer 位置编码 位置编码计算公式 位置编码计算示例二、Vision Transformer 代码实现
极度畅想9 天前
transformer·eeg·bci·运动想象·脑电分析·意念控制
【脑电分析系列】第24篇:运动想象BCI系统构建:CSP+LDA/SVM与深度学习方法的对比研究欢迎回到脑电分析系列!在前23篇中,我们已系统学习了EEG信号处理的基础、各类机器学习与深度学习模型,以及情绪识别与癫痫检测等实际应用。本篇,我们将深入探索一个核心且激动人心的BCI(脑机接口)范式——运动想象(Motor Imagery, MI)。我们将详细介绍MI范式的基本原理、实验设计和挑战。
没有梦想的咸鱼185-1037-16639 天前
pytorch·python·深度学习·机器学习·数据分析·cnn·transformer
【遥感技术】从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。随着小卫星星座的普及,对地观测已具备多次以上的全球覆盖能力,遥感影像也不断被更深入的应用于矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。
WangYan202210 天前
人工智能·深度学习·transformer
Transformer模型/注意力机制/目标检测/语义分割/图神经网络/强化学习/生成式模型/自监督学习/物理信息神经网络等近年来,随着卷积神经网络(CNN)等深度学习技术的飞速发展,人工智能迎来了第三次发展浪潮,AI技术在各行各业中的应用日益广泛。本次内容带您全面掌握AI前沿技术、新理论及其Python代码实现,助您走在人工智能的技术前沿。 注意力机制:理解其在现代深度学习中的关键作用 Transformer模型:深入剖析BERT、GPT(1/2/3/3.5/4)、DETR、ViT、Swin Transformer等经典模型的原理与应用 生成式模型:探索变分自编码器VAE、生成式对抗网络GAN、扩散模型(Diffusion
顾道长生'10 天前
深度学习·音视频·transformer
(Arxiv-2025)OmniInsert:无遮罩视频插入任意参考通过扩散 Transformer 模型paper title:OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models