transformer

【建模先锋】1 小时前
网络·人工智能·深度学习·cnn·transformer·轴承故障诊断
卷积网络(视觉模型)发展史:从 CNN 到 Vision Transformer,再到视觉 Mamba 的主干演化全景图做故障诊断、时间序列预测,你是不是还默认把 ResNet 当成第一选择? 这当然没错。ResNet 经典、稳定、好用,到今天依然是很多工业场景里的强基线。
码农的神经元4 小时前
神经网络·cnn·transformer
CEEMDAN-VMD-Transformer-CNN-BiLSTM 时间序列预测模型完整实战:从双重分解到混合神经网络建模做时间序列预测的时候,我越来越强烈地感受到一件事:很多预测问题,真正难的不是模型不够强,而是原始序列本身就太复杂。
盼小辉丶7 小时前
深度学习·计算机视觉·transformer
视觉Transformer实战 | Swin Transformer详解与实现Swin Transformer 是基于 Transformer 的视觉骨干网络,其核心思想是通过分层特征映射和移位窗口 (Shifted Windows) 注意力机制设计,实现了更高的计算效率和更好的性能。本文将详细介绍 Swin Transformer 的技术原理,并使用 PyTorch 从零开始实现 Swin Transformer 模型。
高洁0120 小时前
人工智能·python·深度学习·机器学习·transformer
大模型微调进阶:多任务微调实战大模型微调进阶:多任务微调实战一、 什么是多任务微调? 二、 多任务微调的数据组织 三、 多任务微调的训练策略 四、 任务选择与任冲突 五、 从单任务到多任务:一个渐进路径
renhongxia11 天前
大数据·人工智能·深度学习·语言模型·自然语言处理·transformer
人机智能体合作:承诺理论考虑摘要: 基于智能体的系统比我们想象的更为普遍。从承诺理论的视角来看,人机混合智能体系统中的合作,可以从自主智能体的抽象属性出发,为半自动化环境下的组织与功能设计提供统一视角。
weixin_668898641 天前
人工智能·深度学习·transformer
注意力机制与Transformer本文是在DataWhale的开展下的BaseLLM课程的学习笔记, 课程项目链接是:https://github.com/datawhalechina/base-llm
涵星同学1 天前
人工智能·深度学习·transformer
从深度学习到大模型的跃迁:Transformer的核心突破摘要:本文围绕深度学习向大模型跃迁的核心历程,重点剖析Transformer架构的关键突破,对比传统深度学习模型、Transformer与现代大模型的核心差异,梳理三者间的演进逻辑,明确Transformer在跃迁过程中的基石作用,为理解大模型的发展起源与技术本质提供清晰参考。
code_pgf1 天前
人工智能·transformer
2025年的大模型论文的经典性2025 年最值得优先读的一批,基本集中在三条主线:推理与 agentic 能力、多模态统一建模、以及新一代高难度评测。([arXiv][1])
简简单单做算法2 天前
matlab·transformer·时间序列预测·bilstm·pso粒子群优化
基于PSO粒子群优化的Transformer-BiLSTM网络模型的时间序列预测算法matlab性能仿真目录1.前言2.算法测试效果图预览3.算法运行软件版本4.部分核心程序5.算法理论概述6.算法完整程序工程
tyler_download2 天前
人工智能·深度学习·transformer
揉扁搓圆transformer架构:KL散度损失函数的说明深度学习网络以及基于transformer架构的大模型都可以看做是一个函数,我们把输入传递给函数进行运算,函数的输出就是我们想要的结果。例如我们在使用大模型编程时,我们把需要实现的功能用自然语言描述出来,这就对应函数的输入, 然后模型返回我们所需要的代码实现,这就是函数的输出。问题在于我们需要确定模型给出的答案却是是我们所需要的,在给定的例子中,我们要确保模型给出的代码能正确运行,同时代码实现的结果跟我们所描述的功能要一致。
前端摸鱼匠2 天前
人工智能·深度学习·面试·大模型·transformer·求职招聘
【AI大模型春招面试题21】什么是Transformer的“预归一化”与“后归一化”?两者的差异及影响?你好!咱们直接切入正题。这道题在现在的架构演进(尤其是从 BERT 到 LLaMA 系列)背景下,属于必考题。它不仅仅考察你对归一化层位置的记忆,更考察你对深层网络训练稳定性、梯度流以及现代大模型架构设计哲学的理解。
十三画者2 天前
网络·学习·transformer
【文献分享】TREE通过基于 Transformer 的图表示技术,在生物网络中对癌症基因进行可解释的识别学习图表示学习已被用于从生物网络中识别癌症基因。然而,其适用性受到解释性和泛化性不足的限制,尤其是在整合网络分析的情况下。 在此,我们报告了一种可解释且可泛化的基于转换器的模型的开发,该模型通过利用图表示学习以及将多组学数据与同质和异质生物相互作用网络的拓扑结构相结合,能够准确预测癌症基因。该模型能够解释多组学和更高阶结构特征的各自重要性,其在跨生物网络(包括 miRNA 与蛋白质之间的网络、转录因子与蛋白质的网络以及转录因子与 miRNA 的网络)的泛癌和癌症特异性场景中预测癌症基因方面达到了最先进的性能,
昆曲之源_娄江河畔2 天前
python·gpt·ai·transformer
婴儿版GPT##提供一个完整的Transformer架构推理程序,字典随便建的,嵌入向量矩阵、输出矩阵等都是随机产生的,未经过训练,缩小版的GPT,种在掌握注意力机制运算过程,其输入结果也是经常变的,因为没有训练。
何伯特2 天前
深度学习·transformer·机器翻译
手撕Transformer:一个完整的机器翻译实例详解2017年,Google Brain团队发表了题为《Attention Is All You Need》的论文,提出了Transformer架构。这篇论文彻底改变了自然语言处理领域,成为后续BERT、GPT等大模型的基石。
高洁012 天前
人工智能·深度学习·机器学习·数据挖掘·transformer
工业AI部署:模型量化与边缘设备部署实战工业AI部署:模型量化与边缘设备部署实战一、 工业场景的特殊挑战 二、 模型量化:让模型“瘦身” 三、 边缘部署的关键考量 四、 实战中的那些“坑” 五、 典型的工业部署流程
Forrit2 天前
transformer
大模型agent中怎么做意图识别的?在多agent架构中,首先需要通过意图识别技术解析用户输入的真实目的,为后续决策和行动提供基础。
code_pgf3 天前
架构·transformer
Mamba-2 / Jamba / DeepSeek-V2 高效架构近年来,大语言模型与通用序列模型的核心矛盾逐渐从“能否做大”转向“如何高效做大”。随着上下文长度、模型容量和在线推理规模不断提升,经典 Transformer 架构在以下几个方面暴露出明显瓶颈:
小江的记录本3 天前
java·人工智能·后端·python·深度学习·架构·transformer
【Transformer架构】Transformer架构核心知识体系(包括自注意力机制、多头注意力、Encoder-Decoder结构)本文以底层核心→组件升级→整体架构→全链路流程→工程细节→产业演进的逻辑,全方位结构化梳理Transformer核心知识体系,覆盖自注意力机制、多头注意力、Encoder-Decoder结构三大核心模块,同时关联现代大语言模型的架构演进。
高洁013 天前
人工智能·python·深度学习·transformer
AI算法实战:逻辑回归在风控场景中的应用AI算法实战:逻辑回归在风控场景中的应用一、 为什么风控偏爱逻辑回归? 二、 风控中的二分类任务 三、 特征工程:决定模型上限的关键 四、 模型评估:不能只看准确率 五、 部署与监控:模型上线只是开始
测绘第一深情3 天前
人工智能·自动驾驶·transformer
自动驾驶核心技术:BEV 特征 + Transformer 解码器在自动驾驶系统中,高精地图(HD Map)是定位、感知、预测、规划的核心基础设施。近几年,端到端矢量化地图构建成为主流方向,而它的核心范式只有一句话: