transformer

昵称是6硬币2 天前
图像处理·人工智能·深度学习·目标检测·计算机视觉·transformer
(RT-DETR)DETRs Beat YOLOs on Real-time Object Detection论文精读(逐段解析)论文地址:https://arxiv.org/abs/2409.084751 百度公司,中国北京 2 北京大学深圳研究生院电子与计算机工程学院,中国深圳 2024
空中湖3 天前
gpt·bert·transformer
Transformer江湖录 第五章:江湖争锋 - BERT vs GPTAI江湖的风云变幻,从未如此剧烈。自从Transformer横空出世,各大门派纷纷在其基础上发展自己的武学体系。其中最引人注目的,是两大新兴门派的崛起:一为谷歌研究院的"BERT派",二为OpenAI的"GPT派"。
maomaolaoshi4 天前
人工智能·深度学习·transformer
【读书笔记】从AI到Transformer:LLM技术演进全解析尽管对AI的理解有所不同,但大体上,人们认为它让计算机系统有能力执行那些通常需要人类智慧的任务。根据这个定义,许多算法可以被归为AI算法,比如导航应用程序所用的交通预测算法或策略类电子游戏所用的基于规则的系统。
Liudef065 天前
人工智能·深度学习·transformer
三维点云Transformer局部感受野构建:理论、方法与挑战在计算机视觉和三维感知领域,点云因其能够直接捕获物体表面几何信息而成为不可或缺的数据表示形式。然而,点云固有的无序性、非结构化、稀疏性和密度变化等特性,使其处理极具挑战性。近年来,Transformer架构凭借其强大的全局上下文建模能力和长距离依赖捕捉能力,在自然语言处理和二维图像领域取得巨大成功,并迅速扩展到三维点云处理领域。然而,直接将为序列数据设计的Transformer应用于点云存在诸多困难,其中局部感受野的合理构建成为发挥Transformer优势、克服点云处理难题的核心关键。
大千AI助手5 天前
人工智能·深度学习·机器学习·自然语言处理·llm·bert·transformer
BERT:双向Transformer革命 | 重塑自然语言理解的预训练范式本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
盼小辉丶5 天前
人工智能·深度学习·transformer
Transoformer实战——Transformer模型性能评估在自然语言处理 (Natural Language Processing, NLP) 领域,Transformer 架构的崛起彻底改变了模型的训练范式。通过迁移学习 (Transfer Learning, TL) 和多任务学习 (Multitask Learning, MTL),模型能够从海量通用语言知识中提炼出可跨任务复用的表征能力,显著降低了特定任务的训练成本。然而,随着模型复杂度的提升,仅关注分类准确率已无法满足实际需求——推理速度、内存效率以及跨语言泛化能力成为衡量模型综合性能的关键指标。在本节中
蹦蹦跳跳真可爱5896 天前
人工智能·python·rnn·transformer
Python----循环神经网络(Transformer ----Layer-Normalization(层归一化))Batch Normalization的作用是将一个批次(Batch)的特征矩阵的每一个channels 计算为均值为0,方差为1的分布 规律。
是Dream呀6 天前
目标检测·cnn·transformer
目标检测:视觉系统中的CNN-Transformer融合网络无人机(UAVs)在城市自动巡逻中发挥着重要作用,但它们在图像识别方面面临挑战,尤其是小目标检测和目标遮挡问题。此外,无人机的高速飞行要求检测系统具备实时处理能力。
MUTA️6 天前
人工智能·笔记·深度学习·transformer
《MAE: Masked Autoencoders Are Scalable Vision Learners》论文精读笔记参考视频:MAE 论文逐段精读【论文精读】_哔哩哔哩_bilibili 论文链接:arxiv.org/pdf/2111.06377
夏末蝉未鸣017 天前
python·自然语言处理·transformer
python transformers笔记(TrainingArguments类)TrainingArguments是Hugging Face Transformers库中用于集中管理超参数和配置的核心类。它定义了模型训练、评估、保存和日志记录的所有关键参数,并通过Trainer类实现自动化训练流程。
sky丶Mamba7 天前
gpt·bert·transformer
Transformer、BERT、GPT以及Embedding之间的关系Transformer分为两大类应用,但划分标准不是"分类vs生成",而是编码方式:"BERT分类模型"和"GPT生成模型"是正确的,但Embedding不是独立的一类,而是这些模型的中间产物。
归去_来兮8 天前
人工智能·深度学习·transformer
Transformer模型原理概述Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型,最初由 Google 在 2017 年的论文《Attention Is All You Need》中提出,主要用于自然语言处理任务,如今已广泛应用于计算机视觉、语音识别等多个领域,是现代大语言模型(如GPT、BERT等)的核心架构。
码字的字节8 天前
深度学习·架构·transformer
深入理解Transformer架构:从理论到实践在深度学习领域处理序列数据的早期阶段,循环神经网络(RNN)及其变体LSTM、GRU长期占据主导地位。这些模型通过循环连接结构实现对序列信息的传递,理论上能够处理任意长度的输入。然而随着序列长度的增加,RNN架构暴露出越来越明显的结构性问题。
昵称是6硬币8 天前
人工智能·深度学习·目标检测·计算机视觉·transformer
(DETR)End-to-End Object Detection with Transformers论文精读(逐段解析)论文地址:https://arxiv.org/abs/2005.12872 CVPR 2020 Facebook AI 发布
夏末蝉未鸣018 天前
python·自然语言处理·transformer
python transformers库笔记(BertForTokenClassification类)BertForTokenclassification类是Hugging Face transformers库中专门为基于BERT的序列标注任务(如命名实体识别NER、词性标注POS)设计的模型类。它在BERT的基础上添加了一个线性分类层,用于对每个token进行分类。
李加号pluuuus9 天前
论文阅读·深度学习·transformer
【论文阅读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer提出了一个新颖的大规模文生视频系统 CogVideoX,通过引入 3D VAE、专家 Transformer、渐进式训练机制、视频字幕增强机制 等多项关键技术,显著提升了视频生成的连贯性、动作丰富性和文本一致性。
蹦蹦跳跳真可爱58911 天前
人工智能·深度学习·nlp·transformer·循环神经网络
Python----循环神经网络(Transformer ----注意力机制)场景引入:在购物时,通常会根据自身的尺寸,比如腰 围和胸围,来对照商家提供的尺码对照表。在下面的例子中,最左侧的腰围代表我们 的个人尺寸(query),而右侧的两列则是商家提供的对照表(key、value)。
强哥之神12 天前
人工智能·深度学习·语言模型·架构·llm·transformer·边缘计算
英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型英伟达推出了 Llama Nem)otron Nano 4B,这是一款专为在科学任务、编程、符号运算、函数调用和指令执行方面提供强大性能与效率而设计的开源推理模型,其紧凑程度足以支持边缘部署。该模型仅包含 40 亿参数,却在内部基准测试中实现了比其他多达 80 亿参数的同类开源模型更高的准确率,并且推理吞吐量高出 50%。
陈敬雷-充电了么-CEO兼CTO12 天前
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
大模型技术原理 - 基于Transformer的预训练语言模型注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
FF-Studio13 天前
人工智能·pytorch·深度学习·线性代数·机器学习·数学建模·transformer
【硬核数学 · LLM篇】3.1 Transformer之心:自注意力机制的线性代数解构《从零构建机器学习、深度学习到LLM的数学认知》我们已经完成了对机器学习和深度学习核心数学理论的全面探索。我们从第一阶段的经典机器学习理论,走到了第二阶段的深度学习“黑盒”内部,用线性代数、微积分、概率论、优化理论等一系列数学工具,将神经网络的每一个部件都拆解得淋漓尽致。