transformer

白日做梦Q6 小时前
深度学习·cnn·transformer
Transformer 能否取代 CNN?图像去噪中的新范式探索引言:一场视觉任务的范式之争自 2017 年 Transformer 诞生以来,这场最初为自然语言处理设计的架构,正以不可阻挡的势头冲击计算机视觉领域。从 ViT 打破 CNN 在图像分类的垄断,到 Swin Transformer 横扫分割、检测任务,“Transformer 能否取代 CNN” 成为业界持续争论的焦点。而在图像去噪这一基础任务中,这一争论更具现实意义 ——CNN 凭借局部建模优势长期占据主导,Transformer 则以全局注意力机制带来新可能。本文将结合最新研究成果,从核心矛盾、性能
java1234_小锋12 小时前
深度学习·语言模型·llm·transformer·大语言模型
Transformer 大语言模型(LLM)基石 - Transformer简介锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
九河_14 小时前
transformer·vae·diffusion·dit
关于DiT模型的一些思考之前看过VAE、DDPM和DiT的论文,但是那时候的理解比较浅,另外论文中涉及大量的公式推导,时间长了就容易细节和整体都把握不住,只记住了有这样一个模型,但是内部的机制忘得差不多了。
盼小辉丶14 小时前
pytorch·深度学习·transformer·文本生成
PyTorch实战(15)——基于Transformer的文本生成技术我们已经学习了多种分类模型(包括图像分类、情感分类和节点分类等),分类任务监督学习范畴。然而,深度学习模型在无监督学习任务中同样展现出卓越性能,深度生成模型就是典型代表。这类模型通过大量无标注数据进行训练,最终能够学习输入数据的底层结构和模式,从而生成具有相似语义的新数据。 在本节中,我们将实现文本生成器。在文本生成方面,我们将基于训练好的Transformer语言模型进行扩展,使用 PyTorch 将其改造为文本生成器。此外,还将演示如何通过少量代码调用 GPT-2/GPT-3 等预训练 Transfo
phoenix@Capricornus1 天前
人工智能·深度学习·transformer
视觉Transformer(ViT)Transformer 已成功应用于计算机视觉领域,并在许多任务中表现出色。在视觉领域判别任务最常见的选择是视觉 Transformer(Vision Transformer,简称 ViT)(Dosovitskiy et al., 2020)。在使用 Transformer 时,需要决定如何将输入图像转换为 token,最简单的选择是将每个像素作为一个 token 并按照线性投影进行转换。由于Transformer的复杂度随 token 数量平方增长,所以需要限制 token 数量。
aaaa_a1331 天前
人工智能·深度学习·transformer
李宏毅——self-attention Transformer一个社交网络也可以看作一组向量一个分子也能当做向量比如图1:一个句子的每个单词是什么类型(名词、动词)
攻城狮-frank1 天前
深度学习·transformer
超越GPT的底层魔法:Transformer2017年,一篇名为《Attention is All You Need》的论文悄然问世,当时没人预料到,它将成为改变AI发展轨迹的革命性架构——这就是Transformer。
Silence_Jy1 天前
python·深度学习·transformer
deepseek-R1技术报告解析本文主要探索了再没有使用有监督数据的情况下,对模型直接进行pure RL训练以提升模型的推理能力。 DeepSeek-R1-Zero: 以DeepSeek-V3作为Base model,进行Pure RL训练,作者发现虽然推理能力具有显著效果,但是也会有一些缺点: 可读性差、语言混乱等问题。 DeepSeek-R1: 为了解决这些问题和进一步提升模型的推理能力,作者又在R1-Zero的基础上进行了冷启动和多阶段训练等步骤。 最后作者又探索了使用推理能力强的R1蒸馏到小模型上,对小模型的推理能力是否有提升。
高洁011 天前
人工智能·python·神经网络·机器学习·transformer
循环神经网络讲解循环神经网络讲解 一.什么是循环神经网络: 二.为什么要发明循环神经网络: 三.循环神经网络的结构及原理: #人工智能#具身智能#VLA#大模型
AI即插即用1 天前
人工智能·深度学习·目标检测·计算机视觉·视觉检测·transformer
即插即用系列 | WPFormer:基于小波与原型增强的双域 Transformer 表面缺陷检测网络论文名称:Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection
能源系统预测和优化研究2 天前
算法·回归·transformer·能源
【原创代码改进】基于贝叶斯优化的PatchTST综合能源负荷多变量时间序列预测程序名称:基于Bayes-PatchTST的综合能源负荷多变量时间序列预测实现平台:python—Jupyter Notebook
佟格湾2 天前
transformer
Transformer是什么?Transformer 是一种在人工智能和自然语言处理(NLP)领域中具有革命性意义的深度学习模型架构,最早由 Google 在 2017 年的论文《Attention is All You Need》中提出。它最初是为机器翻译任务设计的,但后来迅速成为几乎所有 NLP 任务(如文本生成、问答系统、文本分类等)以及许多其他领域(如计算机视觉、语音处理等)的主流架构。
谷粒.2 天前
运维·网络·深度学习·架构·自动化·transformer·测试覆盖率
自动化测试覆盖率从30%到80%的演进历程:策略、挑战与未来展望在软件质量保障体系中,自动化测试覆盖率(通常指代码覆盖率)是衡量测试有效性的核心指标之一。从30%到80%的演进并非简单的数值提升,而是测试成熟度、工程效能与团队协作能力的综合体现。
陈 洪 伟3 天前
gpt·深度学习·transformer
Transformer彻底剖析(1):GPT中的Transformer架构abstract分词转编号、词嵌入和位置编码每个token其实是行向量,然后其实是E*WQ,不是WQ*E。
AI即插即用3 天前
图像处理·人工智能·深度学习·目标检测·计算机视觉·视觉检测·transformer
即插即用系列 | WACV 2024 D-LKA:超越 Transformer?D-LKA Net 如何用可变形大核卷积刷新医学图像分割论文名称:Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation
Keep_Trying_Go3 天前
人工智能·pytorch·python·深度学习·transformer·多模态·目标统计
基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)视频讲解1:Bilibili视频讲解视频讲解2:https://www.douyin.com/video/7580616343997648179
七宝大爷3 天前
深度学习·缓存·transformer
Transformer推理优化:KV缓存机制详解Transformer模型在自然语言处理领域取得了革命性突破,但其推理过程的计算复杂度与显存占用问题始终制约着实际应用。KV缓存(Key-Value Cache)作为Transformer模型推理优化的核心技术,通过重用中间计算结果,显著降低了推理开销。本文将深入探讨 KV缓存的工作原理、实现机制及优化策略,为Transformer模型的高效推理提供理论支持与实践指导。
高洁014 天前
python·神经网络·机器学习·transformer
卷积神经网络(CNN)详细介绍及其原理详解(3)卷积神经网络(CNN)详细介绍及其原理详解(3) 四、池化层 五、全连接层 六、输出层#人工智能#具身智能#VLA#大模型#AI#LLM#Transformer 架构#AI技术前沿#Agent大模型#工信部证书#人工智能证书#职业证书
小毅&Nora4 天前
人工智能·深度学习·transformer
【人工智能】【深度学习】 ⑧ 一文讲清Transformer工作原理:从自注意力到大语言模型的革命想象一下,你正在给一位外国朋友写一封关于"如何制作一杯完美咖啡"的信。传统RNN模型就像一位只能记住前几个词的翻译,当你写到"需要研磨咖啡豆"时,它可能已经忘记了前面说的"用中度烘焙的咖啡豆"。而Transformer则像一位精通多语言的高级翻译,能同时理解整封信的上下文,准确地将"中度烘焙"和"研磨"联系起来。
非著名架构师4 天前
人工智能·深度学习·数据分析·transformer·风光功率预测·高精度天气预报数据
气象驱动的需求预测:零售企业如何通过气候数据分析实现库存精准控制当气温每变化1摄氏度,饮料销量可能波动15%;当一场大雨突袭城市,外卖订单可能在半小时内激增300%。在零售业利润日益微薄的今天,库存周转效率直接决定了企业的生死存亡。研究表明,利用气候数据分析进行需求预测的企业,其库存周转率比行业平均水平高出25%-40%,缺货与滞销这对矛盾体正在被精准的气象洞察所化解。