transformer

辻戋2 小时前
人工智能·深度学习·transformer
Transformer的核心——注意力机制温馨提示:为了帮读者轻松理解,文中用了很多不正经的比喻。这些只是帮助想象的脚手架,并非真实的技术细节。请以官方论文和公式为准。
心 爱心 爱3 小时前
计算机视觉·transformer·图像识别·vit·特征提取·图像特征提取
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文精读论文地址:ICLR 2021 2010 代码地址:https://github.com/google-research/vision_transformer AT SCALE 大规模 IMAGE RECOGNITION 图像识别 AN IMAGE IS WORTH 16X16 WORDS 一图抵 16×16 个词
码农的神经元3 小时前
人工智能·深度学习·transformer
Deep-HMM 融合 Transformer:序列分类的动态隐状态建模新范式在自然语言处理和序列建模领域,Transformer 凭借自注意力机制成为主流架构,但传统 Transformer 在处理时序序列时,往往通过全局平均池化(GAP)等简单方式聚合序列信息,丢失了时序动态特征。而隐马尔可夫模型(HMM)擅长建模时序数据的隐状态转移规律,本文将详解Deep-HMM 算法原理,以及如何将其与 Transformer 融合,构建更强大的序列分类模型,并通过对比实验验证该融合方案的有效性。
码农的神经元3 小时前
支持向量机·分类·transformer
Transformer-SSM 混合模型 vs 传统 SVM:文本分类任务的深度对比实验目录一、引言二、核心技术原理2.1 Transformer 核心模块:自注意力机制2.2 SSM 模块:状态空间模型
再不会python就不礼貌了12 小时前
人工智能·安全·ai·大模型·transformer·ai编程
从工具到个人助理——AI Agent的原理、演进与安全风险摘 要AI Agent作为2025至2026年间最具变革性的技术方向之一,正在重塑人机交互的边界,推动人工智能从被动响应向主动服务的跨越。通过构建感知、规划、决策与反思等核心模块,结合工具调用能力与分层记忆管理机制,AI Agent已具备多步骤推理与环境交互能力,成为大模型时代技术落地的核心应用形态。以OpenClaw为代表的新一代AI Agent框架,凭借自然语言指令驱动的桌面环境自动化操作能力,打破了传统智能工具的应用局限,推动智能系统实现了从“工具”向“个人助理”的范式跃迁,并展现出持续服务、个性适
霖大侠17 小时前
人工智能·深度学习·算法·机器学习·transformer
Wavelet Meets Adam: Compressing Gradients forMemory-Efficient Training大型语言模型(LLMs)在多种自然语言处理任务中展现出了卓越的性能。然而,其庞大的参数规模在训练过程中带来了显著的内存挑战,尤其是在使用像Adam这样内存消耗较高的优化器时。现有的内存高效算法通常依赖于奇异值分解投影或权重冻结等技术。尽管这些方法有助于缓解内存限制,但与全秩更新相比,它们通常会产生次优的结果。在本文中,我们探索了超越低秩训练的内存高效方法,提出了一种名为梯度小波变换(GWT)的创新解决方案。该方法通过将小波变换应用于梯度,显著降低了维护优化器状态所需的内存需求。我们证明了GWT能够与高内存
liliwoliliwo20 小时前
人工智能·深度学习·transformer
vision transformertransformer只能处理序列,所以需要把图像变成“词序列”怎么变?切patches!每个patch变成"词向量"
tyler_download1 天前
人工智能·深度学习·transformer
揉扁搓圆Transformer架构: 激活函数说明在充分了解Transformer架构前,我们需要知道它的一些前置知识,如果对前置知识了解不清楚,我们深入transformer架构时就会愈发糊涂最后走不下去。Transformer其实是有早期深度学习网络进化而来,他是基于早起深度学习网络架构上进行的一次进化。
xx_xxxxx_1 天前
人工智能·深度学习·机器学习·transformer·多模态
常见多模态架构CLIP/BLIP/Llava/CogVLMCLIP(Contrastive Language-Image Pre-Training)模型是一种多模态预训练神经网络,由OpenAI在2021年发布,是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务,包括OCR,地理定位,动作识别,并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。 该模型的核心思想是使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。CLIP模型有两个模态,一个是文本模态,一个是视觉模态,包括两个主要部分: 1.
是枚小菜鸡儿吖2 天前
深度学习·cnn·transformer
卷不动了?带你拆解 2026 深度学习核心版图:CNN、Transformer 与扩散模型的实战进化站在2026年的技术浪潮之巅,深度学习早已不再是实验室中的学术概念,而是深刻嵌入我们日常生活与产业核心的“数字神经系统”。从清晨唤醒你的智能语音助手,到深夜为你推荐个性化内容的流媒体平台;从自动驾驶汽车对复杂路况的实时判断,到新药研发中分子结构的精准生成——这一切的背后,都离不开深度学习算法的强力支撑。
寂寞旅行2 天前
rnn·cnn·transformer
大模型基石发展历程:CNN、RNN、transformerCNN 主要用于处理具有网格结构的数据,如图像。其核心是卷积层,通过局部感受野和权值共享捕捉空间特征。池化层用于降维和增强平移不变性。CNN 在图像分类、目标检测等任务中表现优异,但难以处理序列数据的长距离依赖问题。
高洁012 天前
人工智能·机器学习·数据挖掘·transformer·知识图谱
【无标题】如何利用知识图谱实现推理和计算如何利用知识图谱实现推理和计算一、 知识图谱如何“推理”? 二、 知识图谱如何“计算”? 三、 实现推理与计算的关键支撑 四、 典型应用场景 五、 挑战与未来方向
这张生成的图像能检测吗3 天前
人工智能·深度学习·transformer·卷积·时序预测
(论文速读)TCN:序列建模不一定需要 RNN论文题目:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling(用于序列建模的通用卷积和循环网络的经验评价)
路小雨~3 天前
笔记·ai·transformer
Transformer架构学习笔记:从数学推导到工程实现与主流变体执行摘要(≤300字) 本文系统梳理Transformer架构,从“为何抛弃RNN/CNN”、到自注意力的矩阵形式与缩放因子推导、多头注意力的等价视角、残差与LayerNorm的训练动力学作用,再到位置编码的频域解释与相对位置扩展,并给出复杂度/参数量估算、训练与优化超参建议、以及可直接复用的PyTorch核心模块实现与逐行关键解释。最后覆盖BERT/GPT/T5、Transformer-XL与Longformer、Sparse/线性注意力等变体,结合调试与性能优化(FlashAttention、混合精度
春风化作秋雨3 天前
人工智能·深度学习·transformer
Transformer:颠覆AI的注意力革命Transformer 是 2017 年由 Google 在《Attention Is All You Need》中提出的深度学习架构,核心以自注意力机制(Self-Attention) 为基础,摒弃了传统 RNN/CNN 的序列依赖式建模方式,通过并行计算和全局上下文建模,大幅提升了序列建模的效率和效果,成为 NLP、CV、多模态等领域的基础架构,BERT、GPT、ViT 等经典模型均基于 Transformer 衍生。
高洁013 天前
人工智能·机器学习·数据挖掘·transformer·知识图谱
基于知识图谱的故障推理方法与算法基于知识图谱的故障推理方法与算法一、 推理的基本范式 二、 知识图谱的构建要求 三、 核心算法与技术 四、 典型实施流程
程序员水自流3 天前
java·人工智能·架构·llm·transformer
【AI大模型第13集】Transformer底层架构原理详细介绍(核心组件拆解分析)Transformer是一种由Google研究团队在2017年提出的深度学习模型架构,它彻底颠覆了序列处理模型的范式,完全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构,仅依靠自注意力机制(Self-Attention) 来处理序列数据。这种设计使其在处理长序列时具有显著优势,并能够实现高度并行化计算,从而奠定了现代大语言模型(如GPT、BERT)的基础。
补三补四3 天前
人工智能·语言模型·transformer
语言模型基础:从统计方法到Transformer的技术演进语言模型是自然语言处理领域的核心技术,它通过学习语言的统计规律来预测文本序列的概率分布。从最早的n-grams统计模型到如今的Transformer架构,语言模型的发展经历了从简单到复杂、从浅层到深层的技术演进。本文将系统梳理语言模型的基础技术,涵盖统计方法、循环神经网络、Transformer架构以及采样和评测方法,为AI研究员提供全面的技术参考。
承渊政道3 天前
深度学习·学习·语言模型·自然语言处理·chatgpt·transformer·机器翻译
从n-grams到Transformer:一文读懂语言模型基础语言模型作为自然语言处理领域的基石,从诞生之初便承载着让机器理解、生成人类语言的核心使命.从早期基于统计规则的朴素模型,到如今驱动大语言模型爆发的Transformer架构,语言模型的演进史,本质上是一部机器不断逼近人类语言逻辑的迭代史.在很长一段时间里,n-grams凭借简洁的统计思想,成为语言建模的主流方案,它用简单的概率统计捕捉词与词之间的关联,却也在长距离依赖、数据稀疏性等问题上暴露了明显局限.随着深度学习的兴起,RNN、LSTM等序列模型试图突破传统统计模型的桎梏.却又受制于串行计算的效率瓶颈,
飞Link4 天前
人工智能·深度学习·重构·transformer
动态嵌入:Transformer 架构下的语义重构与演进在自然语言处理的演进史中,动态嵌入(Dynamic Embedding)代表了从静态查表到实时计算的范式转移。传统的向量化技术为每个词分配一个固定的坐标,而基于 Transformer 架构的动态嵌入则认为,一个词的含义不应由其自身孤立决定,而应由其所处的上下文环境动态生成。