transformer

Forrit1 小时前
transformer
Agent 回退机制回退 1 步(最常用) 退到上一个决策节点,适合:参数错、选工具错、路由选错、格式错误。回退到指定关键节点 不一步步退,直接跳回:
HSunR2 小时前
神经网络·学习·transformer
神经网络 从函数到transformer学习笔记我的学习资料 【【闪客】一小时从函数到 Transformer】https://www.bilibili.com/video/BV1NCgVzoEG9?p=2&vd_source=fe688d296a49c21a47090f9730a67ab4 【90分钟!清华博士带你一口气搞懂人工智能和神经网络】https://www.bilibili.com/video/BV1atCRYsE7x?vd_source=fe688d296a49c21a47090f9730a67ab4 【大白话讲解:线性回归】https:
沪漂阿龙2 小时前
人工智能·深度学习·transformer
面试题:Transformer 模型详解——核心创新、编码器解码器结构、位置编码、因果掩码与大模型基础全解析1. 为什么 Transformer 是面试里的“必问题”?1.1 它不只是一个模型,而是一条技术主线
时空无限3 小时前
人工智能·深度学习·transformer
transformer自注意力机制的核心理解对,你这次已经真正抓到 Attention 的核心了。而且你最后一句:“第一行代表的还是‘我’这个 token 的词向量(只不过是收集了整个句子信息后的新词向量)”
沪漂阿龙7 小时前
人工智能·数据挖掘·回归·transformer
面试题:大模型基础详解——什么是大模型、核心特点、生成式大模型、自回归训练目标、参数单位、缺点与 Transformer 原理全解析1.1 先用一句通俗的话解释“大模型”大模型,通常指的是参数规模很大、训练数据很多、训练算力消耗也非常大的通用模型。它不只是为了做单一任务而训练出来的,而是希望先通过大规模预训练学到通用能力,再通过提示词、微调或者对齐方法,把能力迁移到很多不同任务上。
星座5287 小时前
人工智能·深度学习·神经网络·transformer·强化学习·目标检测算法
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析近年来,随着卷积神经网络(CNN)等深度学习技术的飞速发展,人工智能迎来了第三次发展浪潮,AI技术在各行各业中的应用日益广泛。这个教程将带您全面掌握AI前沿技术、新理论及其Python代码实现,助您走在人工智能的技术前沿。
AI-Frontiers1 天前
transformer
transformer进阶之路:#4 attention从如何「工作」到「为何」如此高效原文:https://mp.weixin.qq.com/s/Jypa7YybekHi2VqET2zaGg
西西弗Sisyphus1 天前
transformer·attention·unsqueeze·self-attention·残差·residual·squeeze
从零实现Transformer:第 4 部分 - Residual Connection的两种实现 Pre-LN 和 Post-LNflyfishPre-LN = Pre-Layer Normalization Post-LN = Post-Layer Normalization
不懂的浪漫1 天前
ai·cnn·llm·transformer·rag
从看清到理解:CNN、Transformer 与 RAG 背后的 AI 架构迁徙一个 CV 旧人眼中的模型范式迁移:从视觉识别、语义建模,到外部知识与 Agent 系统。今天很多人一提 RAG,就直接想到向量数据库。这个联想并不奇怪,因为向量数据库确实是 RAG 最常见的基础设施之一。
西西弗Sisyphus1 天前
transformer·attention·注意力机制·注意力·decoder·self-attention
从零实现Transformer:第 9 部分 - 推理(Inference )文本转张量 → 编码器编码一次 → 解码器从 SOS 开始 → 循环逐词贪心生成 → 遇到 EOS 停止 → 张量转回文本
All The Way North-1 天前
transformer·优化器·数学原理·adam·权重衰减·adamw·对比分析
AdamW 深度解析:从数学原理到 PyTorch 实现,对比分析AdamW与Adam正式 AdamW 之前,推荐先看看我写的这几篇文章:AdamW 的全称是 Adam with Decoupled Weight Decay。
小何code1 天前
自然语言处理·bert·transformer·预训练模型
人工智能【第24篇】BERT模型详解:预训练语言模型的里程碑作者的话:在前面的文章中,我们学习了Transformer架构。2018年,Google发布了BERT(Bidirectional Encoder Representations from Transformers),开启了预训练语言模型的新时代。BERT通过双向编码器和创新的预训练任务,在多项NLP任务上取得了突破性进展。本文将深入讲解BERT的原理、预训练、微调和应用,帮助你理解这一里程碑式的模型!
kishu_iOS&AI1 天前
人工智能·自然语言处理·transformer
NLP - Transformer原理解析论文地址:https://arxiv.org/pdf/1706.03762模型优势1. 能够实现并行计算,提高模型训练效率
名字不好奇1 天前
人工智能·llm·transformer
大模型如何理解上下文:Attention 机制详解上篇文章留下了一个问题。Embedding 让大模型在高维空间里建立了词与词之间的语义关系——"法国"和"巴黎"靠近,"猫"和"狗"是邻居。但 Embedding 有一个根本缺陷:它只描述词本身,不描述词所处的环境。
牧子川2 天前
人工智能·深度学习·transformer
009-Transformer-Architecture💡 摘要:Transformer 是 ChatGPT、Claude 等所有大语言模型的基础架构。它通过"自注意力"机制解决了 RNN 的长遗忘问题,让 AI 真正能理解长文本。
这张生成的图像能检测吗2 天前
人工智能·深度学习·计算机视觉·transformer
(论文速读)DSFormer:用于高光谱图像分类的双选择融合变压器网络论文题目:Dual selective fusion transformer network for hyperspectral image classification(用于高光谱图像分类的双选择融合变压器网络)
dfsj660112 天前
深度学习·架构·transformer
第九章:Transformer 架构[!info] 在上一章中,我们看到了注意力机制如何打破了 Seq2Seq 的信息瓶颈。巴赫达瑙(Bahdanau)等人的一个朴素想法——让解码器在每步生成时"回头查阅"编码器的所有隐状态——不仅让机器翻译的质量大幅提升,还给整个 NLP 领域留下了一个迷人的可解释性工具:对齐矩阵。注意力机制,成了那个时代 NLP 系统的"标配附件"。
高洁012 天前
人工智能·深度学习·数据挖掘·transformer·知识图谱
知识图谱与检索增强的实战结合知识图谱与检索增强的实战结合一、 幻觉从哪来 二、 RAG怎么防幻觉 三、 知识图谱补什么 四、 融合实战架构 五、 落地注意事项
小何code2 天前
深度学习·bert·transformer·注意力机制
人工智能【第23篇】Transformer模型详解:Attention Is All You Need作者的话:在前面的文章中,我们学习了Seq2Seq和注意力机制。2017年,Google的论文《Attention Is All You Need》彻底改变了NLP领域,提出了Transformer架构。Transformer完全基于注意力机制,摒弃了RNN的循环结构,实现了并行计算和更强的长距离依赖建模能力。本文将深入讲解Transformer的原理和实现,带你理解现代大语言模型的基础!