transformer

老鱼说AI7 小时前
人工智能·pytorch·python·深度学习·transformer
Transformer Masked loss原理精讲及其PyTorch逐行实现Masked Loss 的核心原理是:在计算损失函数时,只考虑真实有意义的词元(token),而忽略掉为了数据对齐而填充的无意义的填充词元(padding token)。
李加号pluuuus1 天前
论文阅读·深度学习·transformer
【论文阅读+复现】LayoutDM: Transformer-based Diffusion Model for Layout Generation自动化高质量布局生成。虽然用生成对抗网络(GANs)和变分自编码器(VAEs)已经有不少进展,但GAN的多样性和分布覆盖有限、VAE生成质量又不够高。作者受扩散模型(Diffusion Models)在高质量图像生成领域的成功启发,提出将条件扩散模型(Conditional DDPM)与 纯Transformer架构结合 ,创造出LayoutDM 模型,用于条件布局生成。
flyyyya3 天前
人工智能·学习·transformer
【AI学习从零至壹】Transformertransformer论文 Transformer架构已经成为许多应⽤中的主导架构,它堆叠了许多层“self-attentionˮ模块。同⼀层中对每个模块使⽤标量积来计算其查询向量与该层中其他模块的关键向量之间的匹配。匹配被归⼀化为总和1,然后使⽤产⽣的标量系数来形成前⼀层中其他模块产⽣的值向量的凸组合。结果向量形成下⼀计算阶段的模块的输⼊。
斟的是酒中桃4 天前
前端·transformer·fastapi
基于Transformer的智能对话系统:FastAPI后端与Streamlit前端实现本文将详细介绍如何构建一个基于Transformer的智能对话系统,使用FastAPI构建高性能后端API,并通过Streamlit创建交互式前端界面。
墨尘游子5 天前
人工智能·深度学习·语言模型·自然语言处理·transformer
5-大语言模型—理论基础:注意力机制优化目录1、稀疏注意力机制(Sparse Attention)1.1、核心问题:传统注意力的 “效率瓶颈”
无心水5 天前
架构·transformer·mamba·mamba架构·ai大模型系统开发实战·ai大模型高手开发·ai大模型系统实战
【AI大模型:前沿】43、Mamba架构深度解析:为什么它是Transformer最强挑战者?Transformer架构自2017年诞生以来,一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长(如128K长文本处理、基因组学超长序列分析),其自注意力机制的 O ( n 2 ) O(n^2) O(n2)计算复杂度成为难以逾越的瓶颈。2023年底,由Albert Gu和Tri Dao等人提出的Mamba架构,通过创新的“选择性状态空间模型(Selective SSM)”实现了线性复杂度( O ( n ) O(n) O(n)),在保持高性能的同时,彻底解决了长序列处理的效率问题
强哥之神6 天前
深度学习·语言模型·架构·llm·transformer·vllm
深入解析 vLLM 分布式推理与部署策略在当今人工智能快速发展的时代,大型语言模型(LLM)的推理和部署面临着诸多挑战,尤其是当模型规模日益庞大时,如何高效地利用硬件资源成为关键问题。vLLM 作为一种强大的工具,为分布式推理和部署提供了多种策略,本文将详细探讨其相关技术和应用场景,希望能对您提供有价值的参考。
Blossom.1187 天前
人工智能·深度学习·神经网络·机器学习·cnn·机器人·transformer
基于深度学习的图像识别:从零构建卷积神经网络(CNN)前言 图像识别是计算机视觉领域中的一个核心任务,它涉及到从图像中提取特征并识别其中的对象。近年来,深度学习技术,尤其是卷积神经网络(CNN),在图像识别任务中取得了巨大的成功。本文将详细介绍如何从零开始构建一个卷积神经网络,用于图像识别任务。我们将从理论基础讲起,逐步实现一个完整的CNN模型,并在经典的MNIST数据集上进行训练和测试。 一、卷积神经网络(CNN)的理论基础 (一)卷积层(Convolutional Layer) 卷积层是CNN的核心组成部分,它通过卷积操作提取图像的局部特征。卷积操作涉及
强哥之神7 天前
深度学习·语言模型·架构·llm·transformer·ai agent
一文深入:AI 智能体系统架构设计如何构建一个有效的主动智能系统?如何在开发过程中发现潜在问题,避免它们在生产环境中引发重大麻烦?要回答这些问题,你需要将主动智能系统分为三个部分:工具、推理和行动。每一层都有其独特的挑战。某一层的错误可能会波及到其他层,导致意想不到的失败。例如,检索功能可能拉取不相关数据;推理不充分可能导致工作流程不完整或出现循环;行动在生产环境中可能失效。
静心问道7 天前
人工智能·深度学习·transformer·多模态
TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型温馨提示: 本篇文章已同步至"AI专题精讲" TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型
昵称是6硬币10 天前
图像处理·人工智能·深度学习·目标检测·计算机视觉·transformer
(RT-DETR)DETRs Beat YOLOs on Real-time Object Detection论文精读(逐段解析)论文地址:https://arxiv.org/abs/2409.084751 百度公司,中国北京 2 北京大学深圳研究生院电子与计算机工程学院,中国深圳 2024
空中湖11 天前
gpt·bert·transformer
Transformer江湖录 第五章:江湖争锋 - BERT vs GPTAI江湖的风云变幻,从未如此剧烈。自从Transformer横空出世,各大门派纷纷在其基础上发展自己的武学体系。其中最引人注目的,是两大新兴门派的崛起:一为谷歌研究院的"BERT派",二为OpenAI的"GPT派"。
maomaolaoshi12 天前
人工智能·深度学习·transformer
【读书笔记】从AI到Transformer:LLM技术演进全解析尽管对AI的理解有所不同,但大体上,人们认为它让计算机系统有能力执行那些通常需要人类智慧的任务。根据这个定义,许多算法可以被归为AI算法,比如导航应用程序所用的交通预测算法或策略类电子游戏所用的基于规则的系统。
Liudef0613 天前
人工智能·深度学习·transformer
三维点云Transformer局部感受野构建:理论、方法与挑战在计算机视觉和三维感知领域,点云因其能够直接捕获物体表面几何信息而成为不可或缺的数据表示形式。然而,点云固有的无序性、非结构化、稀疏性和密度变化等特性,使其处理极具挑战性。近年来,Transformer架构凭借其强大的全局上下文建模能力和长距离依赖捕捉能力,在自然语言处理和二维图像领域取得巨大成功,并迅速扩展到三维点云处理领域。然而,直接将为序列数据设计的Transformer应用于点云存在诸多困难,其中局部感受野的合理构建成为发挥Transformer优势、克服点云处理难题的核心关键。
大千AI助手13 天前
人工智能·深度学习·机器学习·自然语言处理·llm·bert·transformer
BERT:双向Transformer革命 | 重塑自然语言理解的预训练范式本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
盼小辉丶13 天前
人工智能·深度学习·transformer
Transoformer实战——Transformer模型性能评估在自然语言处理 (Natural Language Processing, NLP) 领域,Transformer 架构的崛起彻底改变了模型的训练范式。通过迁移学习 (Transfer Learning, TL) 和多任务学习 (Multitask Learning, MTL),模型能够从海量通用语言知识中提炼出可跨任务复用的表征能力,显著降低了特定任务的训练成本。然而,随着模型复杂度的提升,仅关注分类准确率已无法满足实际需求——推理速度、内存效率以及跨语言泛化能力成为衡量模型综合性能的关键指标。在本节中
蹦蹦跳跳真可爱58914 天前
人工智能·python·rnn·transformer
Python----循环神经网络(Transformer ----Layer-Normalization(层归一化))Batch Normalization的作用是将一个批次(Batch)的特征矩阵的每一个channels 计算为均值为0,方差为1的分布 规律。
是Dream呀14 天前
目标检测·cnn·transformer
目标检测:视觉系统中的CNN-Transformer融合网络无人机(UAVs)在城市自动巡逻中发挥着重要作用,但它们在图像识别方面面临挑战,尤其是小目标检测和目标遮挡问题。此外,无人机的高速飞行要求检测系统具备实时处理能力。
MUTA️14 天前
人工智能·笔记·深度学习·transformer
《MAE: Masked Autoencoders Are Scalable Vision Learners》论文精读笔记参考视频:MAE 论文逐段精读【论文精读】_哔哩哔哩_bilibili 论文链接:arxiv.org/pdf/2111.06377
夏末蝉未鸣0115 天前
python·自然语言处理·transformer
python transformers笔记(TrainingArguments类)TrainingArguments是Hugging Face Transformers库中用于集中管理超参数和配置的核心类。它定义了模型训练、评估、保存和日志记录的所有关键参数,并通过Trainer类实现自动化训练流程。