transformer

羊小猪~~7 小时前
人工智能·深度学习·考研·算法·机器学习·transformer
【论文精度】Transformer---大模型基石博主简介:努力学习的22级本科生一枚 🌟 博客主页:羊小猪~~-CSDN博客 内容简介:探索AI算法,C++,go语言的世界;在迷茫中寻找光芒🌸 本文内容:精读Transformer论文,下一篇transformer论文复现。
韭菜盖饭10 小时前
语言模型·自然语言处理·面试·transformer
大模型常见八股集合(带答案)整理一些常见八股问题,用于面试复习。因为 点积的数值会随着向量维度 (d_k) 增大而变大,如果不除以 d k \sqrt{d_k} dk ,softmax 很容易进入“过于尖锐”的区域,导致训练不稳定、梯度变小。
Tadas-Gao1 天前
人工智能·语言模型·自然语言处理·架构·大模型·llm·transformer
Mem0分层记忆系统:大语言模型长期记忆的架构革命与实现范式当前的主流大语言模型(如GPT系列、LLaMA等)虽然在单轮对话中表现出色,但在处理多轮、长程对话任务时,面临严重的记忆衰减和上下文长度限制问题。传统的做法是将整个对话历史作为上下文输入,但这会带来几个关键问题:
吴佳浩 Alben1 天前
运维·人工智能·pytorch·语言模型·transformer·vllm
GPU 生产环境实践:硬件拓扑、显存管理与完整运维体系本篇是系列第三篇。前两篇解决了 GPU 编号的问题。本篇进一步讨论生产环境中影响 GPU 性能的其他关键因素,包括硬件拓扑、PCIe 带宽、温度功耗、显存碎片化、混合精度选择,以及如何建立完整的服务启动、健康检查和日志管理运维体系。同时收录了排查过程中遇到的 chmod -r 事故,以及数据加载瓶颈的分析方法。
Hello.Reader1 天前
人工智能·深度学习·transformer
词语没有位置感?用“音乐节拍“给 Transformer 装上时钟——Positional Encoding 图解Self-Attention 的计算方式是:每个词的 Q 去和所有词的 K 做点积,然后加权求和。这个过程里,词的顺序根本没有参与计算。
吴佳浩 Alben1 天前
人工智能·pytorch·语言模型·transformer
CUDA_VISIBLE_DEVICES、多进程与容器化陷阱本篇是系列第二篇。第一篇介绍了 CUDA_DEVICE_ORDER 的基本概念与修复方法。本篇在此基础上,深入讲解 CUDA_VISIBLE_DEVICES 与 CUDA_DEVICE_ORDER 的叠加效应,分析多进程训练框架(torch.distributed、DeepSpeed)中的潜在陷阱,并介绍 Docker 和 Kubernetes 环境下的特殊处理方式,最后给出混合 GPU 环境下的正确架构设计思路。
造夢先森1 天前
人工智能·神经网络·transformer
【白话神经网络(三)】从Transformer到XXX首先回顾下之前的知识:【白话神经网络(一)】从函数到神经网络 【白话神经网络(二)】从CNN、RNN到Transformer
冰西瓜6002 天前
人工智能·深度学习·transformer
深度学习的数学原理(十九)—— 视觉Transformer(ViT)实战上一篇文章中,我们拆解了ViT的核心部件,尽管没有对核心原理进行过多探讨,但我们至少了解了各个部件的作用,本文中,我们将把这些部件拼接起来,构成完成的网络。
程序媛小鱼2 天前
gpt·深度学习·bert·transformer
从预训练到Transformer到GPT通过一个已经训练好的模型A,去完成一个小数据量的任务B(使用了模型A的浅层参数),前提是模型A与模型B相似
本是少年2 天前
人工智能·深度学习·transformer
# Qwen3.5在Transformers库部署推理及ReAct智能体Qwen3.5系列发布好些天了,官方的ModelCard只有SGLang、vLLM、KTransformers等框架的推理示例,以及OpenAI库、Agentic智能体的使用方法,但是对于初学者来说,仍然有在Transformers库上加载大模型进行推理和微调训练的学习需求,本文就是为此所撰写的。
前端摸鱼匠3 天前
人工智能·深度学习·ai·面试·职场和发展·架构·transformer
面试题7:Encoder-only、Decoder-only、Encoder-Decoder三种架构的差异与适用场景?你好!那咱们就跳过那些“什么是Transformer”的基础科普,直接切入架构设计的底层逻辑、工程落地的权衡以及面试中那些能一眼看出你水平的“深水区”问题。
剑穗挂着新流苏3123 天前
python·深度学习·transformer
Pytorch加载数据Dataset 是一个抽象类。当你自定义一个 Dataset 时,本质上是在重写一份“说明书”,告诉 PyTorch 如何读取你的特定数据。
欧阳小猜3 天前
人工智能·架构·transformer
Transformer革命:从序列建模到通用人工智能的架构突破2017年,Google团队在《Attention Is All You Need》论文中提出的Transformer架构,彻底改变了自然语言处理的发展轨迹。这一革命性的模型不仅取代了RNN和LSTM在序列建模中的主导地位,更成为当今所有大语言模型(LLM)的核心基础——从BERT到GPT,从T5到ChatGPT,Transformer的身影无处不在。
小陈phd3 天前
笔记·深度学习·学习·自然语言处理·transformer
多模态大模型学习笔记(二十一)—— 基于 Scaling Law方法 的大模型训练算力估算与 GPU 资源配置Scaling Law(缩放定律)是描述大型语言模型性能与模型规模、数据量、计算量之间关系的经验规律。它揭示了:当增加模型参数量、训练数据量或计算资源时,模型性能会如何变化。
张张123y3 天前
深度学习·架构·transformer
#Transformer架构与微调技术深度解析解码器 Decoder编码器 EncoderTransformer架构输入嵌入层位置编码多头自注意力机制
前端摸鱼匠4 天前
人工智能·深度学习·ai·面试·职场和发展·transformer
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?对于资深大模型程序员,面试官想听的不是背书,而是你对数据流、并行化瓶颈、以及因果性约束的深度理解。下面我把这道题拆解成考点分析、标准答案(核心组件详解)、原理深度剖析、以及易错点/加分项四个部分,咱们用聊天的方式把这事儿捋清楚。
油泼辣子多加4 天前
人工智能·深度学习·算法·机器学习·transformer
【DL】Transformer算法应用输入:输出:含义:必须解决3件事:原始 Transformer(Vaswani 2017)核心瓶颈:👉 Attention结构改变:
小超同学你好4 天前
人工智能·语言模型·transformer
LangGraph 14. MCP:把“外部能力”标准化接入 LLM摘要:本文介绍 MCP(Model Context Protocol)作为“外部能力标准化接入层”的核心概念(resources / prompts / tools)、与常见工具函数调用的对比、传输与工程注意点,并以「合同条款风险分析」为实战案例,说明如何在 LangGraph 中集成 MCP:planner 决定 Stage1 工具、Send + reducer 实现并行调用、固定顺序执行 Stage2、stdio 客户端一次连接内完成操作,以及 MCP 不可用时的本地 fallback。文末给出完整流
_张一凡4 天前
人工智能·深度学习·transformer
【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型实战篇本文主要是通过自己构建一个VIT模型完成一个简单的分类任务。电脑配置:win10+RTX4080SX4