transformer

ujainu小10 天前
人工智能·深度学习·transformer
CANN ops-transformer:编译和运行 FlashAttention 示例随着大语言模型参数规模的爆炸式增长,Transformer 架构中 Self-Attention 机制的计算量和显存占用成为制约训练与推理效率的核心瓶颈。标准 Attention 的时间复杂度和空间复杂度均为 O(N^2),当序列长度达到 4096 甚至更长时,Q、K、V 矩阵的显存在 HBM 中会成为难以承受的负担。FlashAttention 通过分块计算(Tile)和算子融合(Kernel Fusion)技术,将显存占用从 O(N^2) 大幅削减至 O(N),同时保持数值精度与标准 Attentio
bryant_meng10 天前
深度学习·chatgpt·transformer·decoder
【Transformer】Why ChatGPT Is Decoder-Only严格来说:ChatGPT(GPT 系列)是“只有 Decoder”的 Transformer。没有 Encoder。
闵孚龙10 天前
rnn·transformer·embedding
常用网络层:Linear、Conv、RNN、Embedding、TransformerPyTorch 的网络层,都是 nn.Module。它们有参数,有 forward,有状态,也能被递归注册到模型里。
EnCi Zheng11 天前
人工智能·transformer
09ba-斯坦福CS336作业一-前馈网络本文档基于斯坦福 CS336 作业一,从零实现 Transformer 的位置级前馈网络(Position-wise FFN),涵盖核心原理、标准 FFN 实现、SwiGLU 门控变体、代码逐行解析,以及完整可运行的综合示例 🛠️
小风吹啊吹~11 天前
学习·transformer·论文笔记·gan·足球战术·战术分析系统
通过时态图学习意图驱动识别足球控球比赛阶段 论文详解如何从足球比赛的球员跟踪数据中,自动识别球队控球时处于哪一种战术阶段。使用了 7 场德甲比赛的数据,这些数据由 TRACAB 系统以 25Hz 频率记录,也就是每秒 25 帧,包含球员和足球的时空位置信息。
君为先-bey11 天前
transformer·扩散模型·导航·具身智能·世界模型·条件扩散
NWM----导航世界模型论文标题Navigation World Models作者Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
garmin Chen12 天前
java·人工智能·python·深度学习·transformer
从 Transformer 到 Agent:大模型技术全景解析大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。
weixin_5500831512 天前
人工智能·深度学习·神经网络·transformer·agi
全量的记忆压缩与意义保存把这些所有的记忆记录下来是一件有点难度的事情,,假设一只黄狗,你取名叫 乐乐 那么从它小时候和你交互产生的记忆,到它长大后和你交互产生的记忆,这些都基于你自己的传感器的信号。这些全部的记忆是一个天文数字,要怎么压缩呢
长葡萄的叶子12 天前
笔记·transformer
Transformer:让机器读懂上下文的艺术在人工智能的世界里,有一项技术几乎重塑了自然语言处理的面貌,它就是 Transformer。假设你要理解这样一句话:
一一哥Sun12 天前
人工智能·深度学习·transformer
第06课:Transformer与注意力机制——大模型背后的秘密武器学完这节课,你能搞明白以下问题:上节课我们说大模型可以有几千亿个参数,读了几乎全人类的所有文字,但你有没有想过一个问题:
高洁0113 天前
python·机器学习·数据挖掘·transformer·知识图谱
医疗行业的数字孪生革命医疗行业的数字孪生革命 一、什么是数字孪生?从工业到医疗的飞跃 二、术前规划:让手术在虚拟世界先做一次 三、医院管理:用数字大脑优化每一份资源 四、药物研发:把十年周期压缩成数字游戏 五、个性化医疗:你的专属数字分身正在守护你
AI浩13 天前
目标检测·transformer·无人机
用于无人机目标检测的三模态融合 TransformerCraig Iaboni, 新泽西理工学院, 美国 Pramod Abichandani, 新泽西理工学院, 美国
啦啦啦_999913 天前
transformer
迁移学习案例_中文文本分类案例类型一:直接加载预训练模型进行输入文本的特征表示,后接自定义网络进行微调输出结果; 类型二:使用指定任务类型的微调脚本微调预圳练模型,后接带有输出头的预定义网络输出结果,说明:所有类型的实战演示,都将针对中文文本进行;
CCC:CarCrazeCurator14 天前
人工智能·机器学习·自动驾驶·transformer
大模型核心注意力机制技术深度报告:MHA、MQA、GQA 与 MLA 技术原理、性能对比与场景适配当前大模型推理的核心技术瓶颈在于显存容量与显存带宽 —— 注意力机制中的 Key-Value Cache(KV Cache)会随序列长度增加呈指数级膨胀,大幅提升显存资源消耗与数据传输延迟。从标准的多头注意力机制(MHA)到高效的多头潜在注意力(MLA),业界通过重构 KV Cache 的存储与计算模式,实现了对显存占用量、推理延迟与模型表达能力的不同权衡。
DisonTangor14 天前
人工智能·语言模型·自然语言处理·开源·aigc·transformer
谷歌开源首个扩散大语言模型——DiffusionGemmaHugging Face | GitHub | 发布博客 | 文档 许可证: Apache 2.0 | 作者: Google DeepMind
AndrewHZ15 天前
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
机器学习之心15 天前
回归·lstm·transformer·扩散模型
扩散模型数据增强 + Transformer-LSTM 回归预测:小样本场景下的工业级解决方案摘要:在小样本回归任务中,数据稀缺往往是制约模型性能的核心瓶颈。本文将扩散模型(Diffusion Model)作为数据生成引擎与 Transformer-LSTM 深度回归网络深度融合,构建了一套端到端的小样本增强预测框架。实验结果表明,经扩散模型数据增强后,Transformer-LSTM 回归模型在测试集上取得了 MAE = 1.0122、RMSE = 1.2945、R² = 0.9007 的优异性能,充分验证了该技术路线在工业小样本场景中的实用价值。