transformer

JoannaJuanCV7 小时前
人工智能·语言模型·transformer
大语言模型基石:Transformer如今火爆的 GPT、LLaMA、通义千问、ChatGLM 等大语言模型,背后都离不开一个核心架构——Transformer。
兔子不吃草~11 小时前
学习·cnn·transformer
Transformer学习记录与CNN思考标准的 Transformer 模型主要由两个模块构成: Encoder(左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征); Decoder(右边):负责生成输出,使用 Encoder 输出的语义表示结合其他输入来生成目标序列。
苏苏susuus11 小时前
人工智能·自然语言处理·transformer
NLP:Transformer之self-attention(特别分享3)Self-Attention 的核心思想是:让序列中的每一个词(元素)都能够“关注”到序列中的所有其他词(包括它自己),并根据相关性动态地聚合所有词的信息,从而得到一个新的、融入了全局上下文信息的表示。
小彭律师14 小时前
深度学习·金融·transformer
基于因果推理与Transformer的金融理财产品智能推荐系统融合因果推理、多模态用户建模与可解释AI的个性化投资决策支持技术传统金融推荐系统主要基于协同过滤和内容匹配技术,存在三个核心问题:首先是推荐解释性不足,金融决策的"黑盒"特性使客户难以理解推荐依据,监管合规要求无法满足;其次是因果关系缺失,现有方法基于历史相关性进行推荐,无法识别真正的因果效应,容易产生虚假关联导致的投资风险;第三是用户画像单一化,仅依赖交易数据和基本画像,忽略了社交行为、市场情绪等多模态信息。
蒋星熠15 小时前
人工智能·python·深度学习·神经网络·机器学习·卷积神经网络·transformer
深度学习实战指南:从神经网络基础到模型优化的完整攻略🌟 Hello,我是蒋星熠Jaxonic! 🌈 在浩瀚无垠的技术宇宙中,我是一名执着的星际旅人,用代码绘制探索的轨迹。 🚀 每一个算法都是我点燃的推进器,每一行代码都是我航行的星图。 🔭 每一次性能优化都是我的天文望远镜,每一次架构设计都是我的引力弹弓。 🎻 在数字世界的协奏曲中,我既是作曲家也是首席乐手。让我们携手,在二进制星河中谱写属于极客的壮丽诗篇!
时空无限1 天前
人工智能·矩阵·transformer
说说transformer 中的掩码矩阵以及为什么能掩盖住词语好的,我们从 Transformer 中掩码矩阵(mask matrix) 的定义和作用一步步解释:在 Transformer 的 注意力机制 (Attention) 中,每个词会和序列里所有其他词计算相似度(相关性),得到一个加权和作为新的表示。
技术小黑1 天前
pytorch·深度学习·transformer
Transformer系列 | Pytorch复现Transformer在之前的博客中我们学习了Seq2Seq(深度学习系列 | Seq2Seq端到端翻译模型),知晓了Attention为RNN带来的优点。那么有没有一种神经网络结构直接基于attention构造,并且不再依赖RNN、LSTM或者CNN网络结构了呢?答案便是:Transformer。Seq2Seq和Transformer都是用于处理序列数据的深度学习模型,但它们是两种不同的架构。
max5006001 天前
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析在本任务中,我们拥有一组关于农作物及其对应根系土的数据。数据包含土壤中各种元素的数值型测量值(自变量)以及农作物中两种特定元素的含量(因变量)。我们的核心目标是:
盼小辉丶2 天前
深度学习·语言模型·回归·transformer
Transformer实战(18)——微调Transformer语言模型进行回归分析在自然语言处理领域中,预训练 Transformer 模型不仅能胜任离散类别预测,也可用于连续数值回归任务。本节介绍了如何将 DistilBert 转变为回归模型,为模型赋予预测连续相似度分值的能力。我们以 GLUE 基准中的语义文本相似度 (STS-B) 数据集为例,详细介绍配置 DistilBertConfig、加载数据集、分词并构建 TrainingArguments,并定义 Pearson/Spearman 相关系数等回归指标。
Xy-unu2 天前
论文阅读·人工智能·transformer·论文笔记·分割
[VL|RIS] RSRefSeg 2目标是提升分割的精度。利用CLIP卓越的跨模态对齐能力来进行目标定位,并借助SAM强大的分割泛化能力来生成精细的掩码
ACEEE12222 天前
人工智能·pytorch·python·深度学习·机器学习·nlp·transformer
Stanford CS336 | Assignment 2 - FlashAttention-v2 Pytorch & Triotn实现在Transformer架构的工程优化中,注意力机制的计算效率是核心瓶颈之一。标准的缩放点积注意力(Scaled Dot-Product Attention)存在 O(T²d) 的时间复杂度和内存占用问题——当序列长度T超过1k时,显存消耗会急剧增加,甚至导致训练中断。为解决这一问题,FlashAttention-v2通过分块计算和LogSumExp数值优化,在保持精度的前提下,将显存占用降低至O(Td),同时通过硬件感知优化提升计算速度。
kunwen1232 天前
rnn·langchain·cnn·transformer·langgraph
机器学习、深度学习卷积神经网络(CNN)vs. 循环神经网络(RNN)vs. Transformer一文带你搞懂 AI Agent 开发利器:LangGraph 与 LangChain 区别
Baihai IDP2 天前
人工智能·ai·语言模型·llm·transformer
2025 年大语言模型架构演进:DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析编者按: 在 Transformer 架构诞生八年之际,我们是否真的见证了根本性的突破,还是只是在原有设计上不断打磨?今天我们为大家带来的这篇文章,作者的核心观点是:尽管大语言模型在技术细节上持续优化,其核心架构仍保持延续,真正的创新更多体现在效率提升与工程实现上。
咔咔学姐kk3 天前
人工智能·深度学习·学习·算法·transformer
大模型微调技术宝典:Transformer架构,从小白到专家本文详解大模型微调技术,阐述如何将通用模型转化为领域专家。介绍全量微调、PEFT、适配器插入、LoRA及强化学习等调优方法,强调优质数据对微调成功的关键作用,并推荐DeepSpeed、LLaMA Factory等开源框架提升训练效率。掌握这些技术可显著提升大模型在特定任务中的表现。
九章云极AladdinEdu5 天前
人工智能·pytorch·深度学习·unity·游戏引擎·transformer·gpu算力
绿色算力技术栈:AI集群功耗建模与动态调频系统随着人工智能计算需求的爆炸式增长,大型GPU集群的能耗问题已成为制约AI可持续发展的关键因素。万卡规模的AI数据中心年耗电量可达亿度级别,不仅带来巨大的运营成本,也产生了显著的碳足迹。本文深入探讨绿色算力技术栈的核心组件,重点介绍RAPL功耗控制技术、基于负载的GPU频率缩放策略和PUE优化实践,通过完整的功耗建模与动态调频系统,实现AI集群能效比的显著提升。实测数据表明,该方案可降低25%-40%的集群能耗,同时保持95%以上的计算性能,为构建环保高效的新型算力基础设施提供完整解决方案。
盼小辉丶5 天前
深度学习·分类·transformer
Transformer实战(17)——微调Transformer语言模型进行多标签文本分类与单标签分类不同,多标签分类要求模型能够为同一文本分配多个相关标签,这在新闻分类、文献标注、内容推荐等场景中尤为重要。本节以 PubMed 数据集为例,微调 DistilBERT 模型,介绍多标签文本分类的完整实现流程。探讨如何从数据预处理、模型微调、损失函数选择到性能评估,构建一个高效的多标签分类模型,并针对标签不均衡问题提出优化策略。
2401_828890646 天前
人工智能·python·自然语言处理·bert·transformer
使用 BERT 实现意图理解和实体识别
北京地铁1号线6 天前
gpt·深度学习·transformer
GPT(Generative Pre-trained Transformer)模型架构与损失函数介绍目录一、核心架构:Transformer Decoder1. 核心组件:仅解码器(Decoder-Only)的堆叠
机器学习之心6 天前
lstm·transformer·kmeans·多元时序预测·双分解
分解+优化+预测!CEEMDAN-Kmeans-VMD-DOA-Transformer-LSTM多元时序预测1.Matlab实现CEEMDAN-Kmeans-VMD-DOA-Transformer融合K均值聚类的数据双重分解+梦境优化算法+Transformer-LSTM多元时间序列预测(完整源码和数据)运行环境Matlab2023b及以上。
会写代码的饭桶6 天前
人工智能·rnn·lstm·transformer
通俗理解 LSTM 的三门机制:从剧情记忆到科学原理你有没有过这样的体验:追一部几十集的连续剧时,总能记住主角的核心目标,却会忘记前三集里路人甲的台词?这种 “选择性记忆” 的能力,其实和 LSTM(长短期记忆网络)的工作原理惊人地相似。