transformer

大傻^2 小时前
transformer·生成式ai·多模态·qwen模型·大模型基础·deepseek架构·参数规模
从感知机到DeepSeek:AI大模型基础认知全栈解析(演进史·架构对比·参数详解)摘要:本文基于"AI大模型基础认知"知识体系,系统梳理从早期NLP到现代大模型的技术演进脉络,深度解析DeepSeek与Qwen底层架构差异,并通过可视化方式拆解"大模型究竟大在哪里"这一核心命题。适合作为大模型技术入门的系统性学习手册。
吴佳浩 Alben5 小时前
人工智能·语言模型·transformer
大模型垂直领域微调系列(二):ms-swift 框架全景作者:吴佳浩撰稿时间:2026-3-9测试版本:ms-swift v4.0.1ms-swift(ModelScope Scalable lightWeight Infrastructure for Fine-Tuning)是阿里云魔搭社区(ModelScope)开源的大模型与多模态大模型微调部署一体化框架。
茴香豆的茴16 小时前
transformer
浅谈正余弦位置编码的数学原理Transformer 位置编码(Positional Encoding) 采用的是正余弦位置编码,其形式是:
小陈phd6 小时前
笔记·学习·transformer
多模态大模型学习笔记(十二)——transformer学习之Embedding在Transformer架构与大模型体系中,Embedding是贯穿始终的核心基础模块,是连接人类可理解的符号(文本、图像等)与模型可计算的向量空间的唯一桥梁。本文将结合核心技术图谱,系统梳理Embedding的基础概念、技术演进、在Transformer中的核心作用,以及工业级落地场景,帮你彻底吃透这个大模型时代的“语义基石”。
高洁018 小时前
人工智能·机器学习·数据挖掘·transformer·知识图谱
生产线数智化质量可靠性管控与安全风险感知生产线数智化质量可靠性管控与安全风险感知一、 概念内涵 二、 关键技术支撑 三、 实施路径建议 四、 典型应用场景 五、 挑战与趋势
做cv的小昊11 小时前
人工智能·笔记·学习·语言模型·llm·transformer·agent
大语言模型系统:【CMU 11-868】课程学习笔记02——GPU编程基础1(GPU Programming Basics 1)【CMU 11-868】课程面向研究生开设,聚焦“从算法到工程”的大语言模型系统构建全过程。课程内容包括但不限于:
查无此人byebye19 小时前
pytorch·深度学习·transformer
【保姆级教程】从零实现模块化Transformer对话生成模型(PyTorch完整代码)Transformer作为NLP领域的里程碑模型,其核心的自注意力机制彻底改变了序列建模的方式。本文将通过一个对话生成模型的完整案例,从零拆解Transformer的模块化实现过程,包括Embedding、位置编码、多头注意力、编码器/解码器层等核心组件,并基于PyTorch完成从数据处理、分词器训练到模型训练的全流程。
青春不败 177-3266-052020 小时前
人工智能·深度学习·机器学习·transformer·自然科学随机森林
最新AI-Python自然科学领域机器学习与深度学习技术——随机森林、XGBoost、CNN、LSTM、Transformer,从数据处理到时空建模等随着观测技术、数值模拟与计算基础设施的迅猛发展,地球系统科学、生态学、环境科学等自然科学领域正迈入“大数据+智能模型”驱动的新阶段。传统的统计建模方法虽具可解释性,却难以应对高维、非线性、多源异构的复杂自然系统;而以机器学习和深度学习为代表的AI技术,正为科学发现提供强大工具。更进一步,以大模型为代表的新型人工智能范式——包括预训练-微调机制、跨模态表征、上下文学习与生成能力——正在重塑数据密集型科研的边界,为遥感反演、气候模拟、污染物溯源等任务带来前所未有的泛化与迁移潜力。 一:科研数据类型与预处理 1
小陈phd21 小时前
人工智能·笔记·transformer
多模态大模型学习笔记(十三)——transformer学习之位置编码在Transformer架构中,自注意力机制本身是“无序”的——它只关注Token之间的语义关联,无法感知Token在序列中的先后顺序。而位置编码(Positional Encoding, PE)正是为了弥补这一缺陷,将位置信息注入到模型中,让Transformer能像人类一样理解“先有因后有果”的序列逻辑。
高洁011 天前
人工智能·python·深度学习·数据挖掘·transformer
学习基于数字孪生的质量预测与控制学习基于数字孪生的质量预测与控制学习基于数字孪生的质量预测与控制一、 什么是数字孪生(Digital Twin)? 二、 质量预测与控制的目标 三、 数字孪生如何赋能质量预测与控制? 四、 关键技术栈 五、 典型应用场景 六、 学习路径建议
飞升不如收破烂~1 天前
人工智能·深度学习·transformer
Transformer 架构:用「工厂流水线」讲透(无代码、纯人话)假设我有数百年AI领域经验,今天不用任何公式/代码,只靠「工厂生产」「团队协作」的例子,让你彻底懂 Transformer——它是所有大模型(GPT/豆包/文心一言)的「骨架」,理解它就理解了AI能“听懂、会说”的核心。
机器学习之心1 天前
matlab·transformer·电池soh预测·锂电池健康状态估计·nasa数据集
基于Transformer编码器的锂电池健康状态估计(电池SOH预测,NASA数据集)MATLAB代码,MATLAB代码MATLAB 代码实现了一个基于 Transformer 神经网络 的锂电池健康状态(SOH)估计模型,使用 NASA 的 B0005 电池数据集进行验证。以下是对该代码的详细分析:
小陈phd1 天前
人工智能·自然语言处理·transformer
多模态大模型学习笔记(十四)——transformer学习之Self-AttentionSelf-Attention(自注意力机制)是Transformer架构的核心引擎,它解决了RNN类模型“长距离依赖建模困难”和“并行计算效率低”的痛点,让模型能同时捕捉序列中任意两个Token的语义关联。
RuiBo_Qiu1 天前
人工智能·ai·transformer
【LLM基础】3.大模型前沿注意力机制优化笔记 (以 Qwen3.5-MoE 为例)在现代 LLM(比如 Qwen、LLaMA 家族等)中,Transformer 的标准多头注意力(MHA)结构正面临表征能力与显存消耗的双重挑战。主流解决思路主要有以下两类:
中杯可乐多加冰1 天前
深度学习·架构·transformer
【一点浅思】Transformer架构是否已经触及性能天花板?未来架构突破的方向在哪里?当我们在讨论大模型未来时,一个无法回避的问题是:那个撑起整个AI江山的Transformer,是否已经触及了自己的极限?
WeeJot嵌入式2 天前
人工智能·深度学习·transformer
ICLR 2026低秩Transformer解决方案:多变量时间序列异常检测与定位的数学原理作者:WeeJot | 本文为算法深潜系列文章,深入解析前沿AI论文中的数学原理与实现细节在物联网(IoT)、工业监测、金融交易等复杂系统中,多变量时间序列(MTS) 异常诊断是确保系统安全可靠性的关键任务。传统方法主要依赖基于重建误差的检测,但在理论和实践上存在两大核心挑战:
Volunteer Technology2 天前
人工智能·chatgpt·transformer
一键部署OpenClaw(阿里云和京东云)
Tadas-Gao2 天前
人工智能·深度学习·架构·大模型·transformer
从暴力美学到理性重构:Transformer架构的黄昏与后AI时代的新曙光一位Transformer架构的发明者正在远离自己曾经开创的领域,警告行业避免重蹈RNN被彻底淘汰的覆辙,与此同时,全球科技巨头们每年投入千亿美元维持这个庞大却性能增长日渐式微的系统。
小超同学你好2 天前
人工智能·语言模型·transformer
Transformer 7. Decoder:架构选择、Teacher Forcing 与并行计算摘要:本文系统介绍 Transformer 中的 Decoder 模块:首先区分完整 Encoder+Decoder 与 Decoder-Only 两种架构的适用场景(前者适合机器翻译、摘要等强依赖源序列的 Seq2Seq 任务,后者适合续写、对话、语言模型等自回归生成);接着说明 Encoder+Decoder 结构中 Decoder 的组成(滞后标签输入、掩码自注意力、编码器-解码器交叉注意力等),以及 Encoder 与 Decoder 序列长度不一致时交叉注意力如何自然兼容;重点讲解 Teache
小超同学你好2 天前
人工智能·语言模型·transformer·llama
Transformer 12. LLaMA 架构介绍以及与 Transformer 架构对比摘要:本文在 Decoder-only Transformer 的基础上,系统介绍 LLaMA 的架构设计及每一步的矩阵运算与维度。内容包括:LLaMA 的整体定位(Decoder-only + RMSNorm + Pre-Norm + SwiGLU + RoPE)、从输入到 Decoder 的数据流(Tokenization、Embedding、RoPE 位置编码)、单层 Decoder 的完整计算(RMSNorm、带掩码的自注意力/ GQA、SwiGLU 前馈网络)及其矩阵形状、输出层、以及与标准 T