transformer

逐云者1234 小时前
人工智能·transformer·vr·三维重建·ar、
论文介绍:“DUSt3R”,让 3D 视觉从“繁琐”走向“直观”想象一下,你有一组用手机随意拍摄的照片,没有校准,也没有任何关于相机位置的记录。如果想用它们来重建一个 3D 模型,传统的计算机视觉方法会让你头疼不已。你需要先校准每张照片的相机参数,然后进行复杂的特征点匹配,再通过三角测量和捆集调整(Bundle Adjustment)等一系列繁琐的几何计算,才能最终得到一个勉强可用的 3D 模型。
zl2916 小时前
深度学习·学习·计算机视觉·transformer
论文学习30:LViT: Language Meets Vision Transformerin Medical Image Segmentationhttps://github.com/HUANGLIZI/LViT深度学习已广泛应用于医学图像分割等领域。然而,由于数据标注成本过高,获取充足的高质量标注数据成为限制现有医学图像分割模型性能的关键。为了缓解这一限制,本文提出了一种新的文本增强医学图像分割模型 LViT(Language Meets Vision Transformer)。在这个 LViT 模型中,引入了医学文本标注来弥补图像数据的质量缺陷。此外,文本信息可以指导在半监督学习中生成更高质量的伪标签。文中还提出了一种指数伪标签迭代机制 (EP
冰糖猕猴桃1 天前
人工智能·ai·nlp·transformer
【AI - nlp】Transformer输入部分要点本篇文章主要介绍Transformer左侧输入部分三个关键细节:看不懂我在说什么?没关系,下面我们先来看一下Transformer架构中的输入部分 --> 词嵌入层 和 位置编码的一个简单的代码演示。
盼小辉丶2 天前
人工智能·深度学习·transformer
PyTorch生成式人工智能(29)——基于Transformer生成音乐我们已经学习了如何使用 MuseGAN 生成逼真的多音轨音乐。MuseGAN 将一段音乐视为一个类似图像的多维对象,并生成与训练数据集中相似的音乐作品。在本节中,将采另一种方法来创作音乐,将音乐视为一系列音乐事件。具体来说,将开发一个类似 GPT 的模型,基于序列中所有先前事件来预测下一个音乐事件。本节将创建的音乐 Transformer 拥有 2016 万个参数,足以捕捉不同音符在音乐作品中的长期关系,同时也可以在合理的时间内完成训练。 我们将使用 Maestro 钢琴音乐作为训练数据,MIDI 文件转
lxmyzzs3 天前
人工智能·笔记·目标检测·transformer
《百度的 RT-DETR:一种基于 Vision Transformer 的实时对象检测器》阅读笔记在目标检测领域,非极大值抑制(Non-Maximum Suppression, NMS)长期以来是后处理阶段的关键步骤,用于去除重叠的冗余检测框。然而,NMS 依赖于手工设定的超参数(如置信度阈值、IoU阈值),其执行时间受预测框数量影响显著,且在端到端训练中不可导,限制了模型的整体优化。
AI浩3 天前
网络·深度学习·transformer
Transformer架构三大核心:位置编码(PE)、前馈网络(FFN)和多头注意力(MHA)。本文将用“直觉理解” -> “一图看懂” -> “代码实现”三步法,帮你无痛掌握Transformer的三大核心:位置编码(PE)、前馈网络(FFN) 和多头注意力(MHA)。
强哥之神4 天前
pytorch·深度学习·语言模型·大模型·transformer
一文读懂:用PyTorch从零搭建一个Transformer模型2017年,Vaswani 等人在论文《Attention Is All You Need》中提出了 Transformer 架构,这可以说是自然语言处理领域的一次“范式转移”。具体可详见之前写的一篇文章:深入解析Transformer架构。
盼小辉丶7 天前
gpt·深度学习·语言模型·transformer
Transformer实战(13)——从零开始训练GPT-2语言模型在自然语言处理领域,GPT-2 作为 Transformer 架构的重要代表,展现了强大的文本生成能力。本节以 GPT-2 为例,介绍如何在自定义的文本数据集上预训练语言模型,并将其用于自然语言生成 (Natural Language Generation, NLG) 等任务。我们将以简·奥斯汀的经典小说《爱玛》作为训练语料,通过 Hugging Face 的 transformers 库,详细介绍从数据准备、分词器训练到模型训练和文本生成的全流程。
东语~7 天前
深度学习·transformer·语音识别
Transformer 模型在自动语音识别(ASR)中的应用自动语音识别(Automatic Speech Recognition,ASR),简单来说,就是让计算机能够听懂人类的语音,并将其转换为文本的技术。在我们的日常生活中,ASR 有着极为广泛的应用。比如大家常用的语音助手,像苹果的 Siri、小米的小爱同学等,当我们对着它们说话,它们能够快速识别我们的语音指令,进而帮我们查询信息、设置提醒、拨打电话等;在智能车载系统中,司机通过语音就能控制导航、播放音乐,无需手动操作,大大提高了驾驶的安全性;还有在会议记录、语音转写等工作场景中,ASR 技术也能极大地提高工
LLM精进之路8 天前
人工智能·深度学习·机器学习·语言模型·transformer
上海AI实验室突破扩散模型!GetMesh融合点云与三平面,重塑3D内容创作Meshes generated by our method. GetMesh is able to generate diverse and high-quality meshes across the 55 categories in ShapeNet.
点云SLAM8 天前
人工智能·pytorch·python·深度学习·cnn·transformer·mlp
PyTorch中 nn.Linear详解和实战示例在 PyTorch 中,torch.nn.Linear 表示一个全连接层(Fully Connected Layer),也叫 仿射变换层(Affine Layer)。 它的计算公式是:
苏苏susuus9 天前
人工智能·自然语言处理·transformer
NLP:Transformer各子模块作用(特别分享1)前言:Transformer 是深度学习领域的革命性架构,彻底改变了NLP的发展方向。前面分享了Transformer的大概构建思路,本文特别分享Transformer的各子模块作用。
什么都想学的阿超10 天前
语言模型·架构·transformer
【大语言模型 17】高效Transformer架构革命:Reformer、Linformer、Performer性能突破解析关键词:Transformer变种、Reformer、Linformer、Performer、注意力机制优化、长序列处理、计算复杂度、LSH注意力、线性注意力、Kernel方法、内存优化、序列建模
兔子的倔强12 天前
人工智能·深度学习·transformer
Transformer在文本、图像和点云数据中的应用——经典工作梳理最近在整一些3D检测和分割的任务,接触了一下ptv3,在之前梳理的工作owlv2中用到了vit,去年年假阅读《多模态大模型:算法、应用与微调》(刘兆峰)时学习了Transformer网络架构及其在文本数据中的应用,细数下来,似乎各方面都多多少少了解和应用过一些,但是直到昨天跟别人讨论起Transformer在多模态数据中的应用,发现自己了解的不太系统,基于这个大背景,我希望借助闲暇时间梳理一下相关的代表性工作,后面如果有机会,也会做一些实践记录,希望自己学会的同时也可以帮助到一些有需要的小伙伴。
sinat_2869451912 天前
服务器·人工智能·算法·chatgpt·transformer
AI服务器介绍现在大模型依旧如火如荼,大模型训练和推理都少不了AI服务器,常见的就是英伟达GPU服务器,比如A100等。国产AI服务器也有很多,比如华为昇腾,这些服务器的算力如何,和英伟达的对比怎么样,作为大模型应用开发人员,需要有个了解,这样对部署的大模型性能有个大致判断。
Virgil13913 天前
人工智能·pytorch·计算机视觉·自然语言处理·ocr·transformer
【TrOCR】模型预训练权重各个文件解读huggingface上预训练权重trocr-base-printed 下载后的trocr-base-printed是一个文件夹,结构如下:
聚客AI14 天前
图像处理·人工智能·pytorch·深度学习·机器学习·自然语言处理·transformer
深度拆解AI大模型从训练框架、推理优化到市场趋势与基础设施挑战人工智能大模型(如GPT、LLaMA等)已成为推动AI产业变革的核心引擎。其价值在于通过海量数据预训练提取通用知识,大幅提升模型泛化能力,降低微调成本。然而,大模型的开发涉及复杂的训练流程、高效的推理优化、激烈的市场竞争以及底层基础设施的严峻挑战。今天我将从大模型训练层、推理层、市场洞察及基础设施层四个维度,系统解析技术细节,希望对你们有所帮助,记得点个小红心支持一下。
Coovally AI模型快速验证15 天前
深度学习·算法·yolo·计算机视觉·transformer·无人机
农田扫描提速37%!基于检测置信度的无人机“智能抽查”路径规划,Coovally一键加速模型落地【导读】本文针对扩散模型训练慢、高分辨率生成效率低的瓶颈,提出DC-AE 1.5框架。该框架核心在于引入结构化隐空间以提升高分辨率生成效率,并采用增强扩散训练技术加速模型收敛。实验表明,在ImageNet等数据集上,DC-AE 1.5在保持高生成质量的同时,实现了更快的训练吞吐率和更优的图像质量,取得了双重突破。
AIGC安琪15 天前
人工智能·深度学习·ai·语言模型·大模型·transformer·ai大模型
Transformer中的编码器和解码器是什么?今天,我们来具体介绍Transformer的架构设计。一个完整的Transformer模型就像一个高效的语言处理工厂,主要由两大车间组成:编码车间和解码车间。
小艳加油17 天前
python·深度学习·机器学习·transformer
Python机器学习与深度学习;Transformer模型/注意力机制/目标检测/语义分割/图神经网络/强化学习/生成式模型/自监督学习/物理信息神经网络等大型语言模型不仅在自然语言处理领域取得突破,也日益成为助力Python编程、加速机器学习与深度学习项目落地的重要工具。与此同时,以PyTorch为代表的深度学习框架,凭借其灵活、高效、易扩展的特性,持续受到科研人员和工程师的青睐。