transformer

无能者狂怒3 小时前
人工智能·深度学习·yolo·目标检测·计算机视觉·transformer
DETR(DEtection TRansformer)——基于Transformer的目标检测范式革命与演进在计算机视觉的发展历程中,目标检测(Object Detection)始终占据着核心地位。长久以来,该领域被基于卷积神经网络(CNN)的密集预测范式所主导。无论是“两阶段(Two-Stage)”的代表 Faster R-CNN,还是“单阶段(One-Stage)”的标杆 YOLO 和 SSD 系列,它们在设计哲学上都共享着同一套归纳偏置(Inductive Bias):将目标检测视为在密集网格上的分类与回归问题。为了解决尺度变化和重叠问题,这些方法不得不依赖于大量手工设计的组件,如锚框(Anchor Bo
智算菩萨21 小时前
人工智能·深度学习·transformer
【Python深度学习】基础讲解:从感知机到Transformer:深度学习模型的进化图谱(有MNIST数据集上的实验)目录1 引言2 基础知识2.1 感知机:神经网络的起源与局限2.2 多层感知机:通用逼近能力的实现2.3 卷积神经网络:利用空间结构的精妙设计
无能者狂怒21 小时前
深度学习·transformer
VIT微调时的位置编码插值摘要:在将 Vision Transformer (ViT) 从预训练模型(如 ImageNet-1k, 224x224)迁移到工业缺陷检测或高分辨率任务(如 384x384, 512x512)时,最常见的报错就是位置编码维度不匹配。本文将用通俗易懂的“图像缩放”视角,详解为何需要插值以及底层的代码实现逻辑。
kimi-2221 天前
pytorch·python·transformer
Transformer 模型中位置编码(Positional Encoding, PE)表示:对输入序列加上了对应位置编码,并保留原始 shape。正弦位置编码的“外推性”在理论上成立,但在实践中存在严重缺陷,尤其在长序列任务中表现不佳。而RoPE 等相对位置编码方法通过更符合语言本质的设计,显著提升了模型对长距离依赖的建模能力、外推稳定性和训练效率。
WitsMakeMen1 天前
人工智能·缓存·语言模型·自然语言处理·llm·transformer
训练时开启 KV 缓存会和is_causal=False 冲突训练时开启 KV 缓存(Key-Value Cache)与 is_causal=False 冲突的核心原因是:KV 缓存的设计逻辑完全依赖「因果掩码(is_causal=True)+ 自回归逐 token 生成」,而 is_causal=False 打破了这一核心前提,从「逻辑设计、维度计算、场景适配」三个层面产生不可调和的矛盾。以下结合 Qwen3 等 Decoder 模型的底层逻辑,拆解冲突本质:
Blossom.1181 天前
人工智能·python·深度学习·学习·yolo·react.js·transformer
边缘智能新篇章:YOLOv8在树莓派5上的INT8量化部署全攻略最近研学过程中发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。
吾在学习路2 天前
人工智能·深度学习·transformer
故事型总结:Swin Transformer 是如何打破 Vision Transformer 壁垒的?CNN 的统治时代:自 2012 年 AlexNet 以来,CNN(卷积神经网络)通过局部感受野、平移不变性、参数共享等设计,成为了计算机视觉(CV)任务的标准骨干网络。其层级化结构(如 ResNet)天然支持多尺度特征提取(从边缘→纹理→部件→物体),非常适合检测、分割等dense prediction(密集预测)任务。 Transformer 的崛起:在 NLP 领域,Transformer 凭借 self-attention 机制建模长距离依赖,彻底取代 RNN。2020 年 ViT(Vision
Blossom.1182 天前
人工智能·python·算法·chatgpt·ai作画·自动化·transformer
GPTQ量化实战:从零手写大模型权重量化与反量化引擎摘要:本文将撕开大模型量化的技术面纱,完全从零手写GPTQ(Gradient-based Post-training Quantization)算法,实现4-bit权重量化与CUDA反量化加速。不同于调用auto-gptq库,我们将深入解析Hessian矩阵计算、逐层量化顺序、LUT查找表优化等核心机制。完整代码涵盖校准数据构造、权重压缩、量化误差补偿、CUDA Kernel手写等模块,实测在LLaMA2-7B上显存占用降低75%,推理速度提升3.2倍,并提供生产级量化模型部署方案。
程序员学习Chat2 天前
目标检测·计算机视觉·transformer
计算机视觉Transformer-2 目标检测这篇介绍利用Transformer结构进行目标检测的工作,首先需要了解计算机视觉中Transformer结构的基础用法,可以看:深度学习基础-5 注意力机制和Transformer,目标检测相关介绍可以看:计算机视觉-目标检测,如果不了解卷积神经网络,可以看:深度学习基础-3 卷积神经网络。
Keep_Trying_Go2 天前
人工智能·深度学习·transformer
MaskGIT掩码生成图算法详解(MaskGIT: Masked Generative Image Transformer)视频讲解1:Bilibili视频讲解视频讲解2:https://www.douyin.com/video/7588784970366340398
瀚岳-诸葛弩2 天前
人工智能·深度学习·transformer
ViT(Vision Transformer)的理解、实现与应用拓展的思考年底事情太多了,静下心来学习实在太不容易。Transformer已经流行到不学不行了,半个月来陆陆续续抽空学习,现将自身的理解和思考记录一下。老规矩,先上原文图:
laplace01232 天前
人工智能·语言模型·prompt·transformer
讲清楚 Prompt, Agent, MCP 是什么+大模型测评流程定义:用户直接输入给 AI 的自然语言指令,用于表达需求。特点:体现用户的意图、目标与偏好同一问题在不同上下文下可能得到不同回答
摸鱼仙人~2 天前
深度学习·transformer·embedding
深度学习训练中的隐形杀手:内部协变量偏移与批量归一化在深度学习模型的训练过程中,我们经常追求更快的收敛速度和更高的准确率。然而,在复杂的神经网络内部,存在一个隐形的“杀手”,它严重阻碍了模型的学习效率,它就是内部协变量偏移 (Internal Covariate Shift, ICS)。
一只大侠的侠2 天前
深度学习·cnn·transformer
融合Transformer与CNN的多模态时间序列预测模型在人工智能落地工业场景的进程中,时间序列预测始终是核心痛点——无论是设备监测的故障预警、气象数据的灾害预判,还是股票市场的趋势分析,传统模型要么难以捕捉长时依赖,要么对多源模态数据的适配性不足。而Transformer的注意力机制擅长挖掘长序列关联,CNN则在局部特征提取上表现优异,将两者融合构建多模态预测模型,成为突破性能瓶颈的关键方向。
Blossom.1183 天前
人工智能·python·深度学习·学习·react.js·django·transformer
多模态大模型LoRA微调实战:从零构建企业级图文检索系统摘要:本文将撕开多模态大模型微调的技术面纱,从零手写CLIP模型的LoRA适配方案,构建支持亿级图片、毫秒级检索的企业级跨模态检索系统。不同于简单调用huggingface库,我们将深入解析Triplet Loss梯度策略、难负样本动态挖掘、图文特征空间对齐等核心机制。完整代码涵盖数据构造、双塔LoRA注入、混合精度训练等模块,实测在Product10M数据集上Recall@1达0.891,微调显存占用降低73%,并提供TensorRT+ONNX推理优化方案。
zuozewei3 天前
人工智能·深度学习·transformer
7D-AI系列:Transformer 与深度学习核心概念现代大语言模型(如 GPT、DeepSeek)多采用 Decoder-only 架构,因为预训练阶段将"编码"与"解码"能力统一到同一架构中。
摸鱼仙人~3 天前
深度学习·transformer·embedding
深入理解 Transformer:位置编码 (Positional Encoding) 与位置嵌入 (Positional Embedding) 的核心区别Transformer 架构自 2017 年诞生以来,彻底改变了自然语言处理(NLP)领域。它强大的自注意力机制(Self-Attention)允许模型捕捉句子中的长距离依赖关系。然而,自注意力机制本身是与词序无关的,这意味着如果打乱一个句子的词序,自注意力层的输出可能保持不变。
徐先生 @_@|||3 天前
rnn·lstm·transformer
N-Gram、RNN、LSTM、Transformer发展历程RNN解决N-Gram的问题:LSTM解决RNN的问题:Transformer解决LSTM的问题:从N-Gram到Transformer的发展历程体现了自然语言处理技术的不断演进:
Blossom.1183 天前
人工智能·python·深度学习·机器学习·flask·transformer·tornado
AI编译器实战:从零手写算子融合与自动调度系统摘要:本文将撕开AI编译器的神秘面纱,从零手写一个支持算子融合、自动调度、循环优化的深度学习编译引擎。不同于调用TVM/MLIR的API,我们将完整实现Halide风格的调度原语、polyhedral模型、自动 tiling&vectorization 等核心机制。完整代码涵盖计算图构建、调度树变换、LLVM IR代码生成等模块,实测在ARM Cortex-A78上实现3x3卷积提速4.7倍,内存占用减少62%,并提供从PyTorch模型到.so库的端到端编译方案。
spencer_tseng3 天前
ai·transformer
transformer-explainerhttps://poloclub.github.io/transformer-explainer/