transformer

Hcoco_me7 分钟前
人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题39:KV Cache 完全指南想象你在和朋友聊天:KV Cache 就是大模型的“短期记忆缓存”,专门存储对话历史/文本序列中已经计算过的关键信息,避免重复计算,让模型“说话更快”。
斯外戈的小白22 分钟前
pytorch·自然语言处理·transformer
【NLP】Transformer在pytorch 的实现+情感分析案例+生成式任务案例nn.MultiheadAttention: 这个模块实现了多头注意力机制,这是Transformer模型的核心组件之一。多头注意力允许模型在不同的位置同时处理来自序列不同部分的信息,这有助于捕捉序列内的复杂依赖关系。
Fuxiao___15 小时前
transformer
Transformer知识点答疑你可以把 Transformer 看成一个反复精读同一句话的专家团队。比如输入一句话:The cat sat on the mat.
Coder个人博客17 小时前
人工智能·自动驾驶·transformer
Transformers分词器模块深度分析团队博客: 汽车电子社区Transformers分词器模块是自然语言处理的核心基础设施,通过PreTrainedTokenizerBase基类及其子类为100+个预训练模型提供了统一的文本处理接口。该模块包含183.86KB的核心代码,实现了文本的分词、编码、解码、批处理等关键功能。分词器模块采用快慢双架构设计,支持Python的灵活性实现和Rust的高性能实现,通过精心设计的抽象层确保了多语言、多任务场景下的高效文本处理。本文档将从软件架构、调用流程、源码分析等多个维度对分词器模块进行全面深度剖析。
Hcoco_me18 小时前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题36:Transformer中的残差连接处理方式与作用我们用 “抄近路保留原始信息” 的生活化比喻讲透核心逻辑,再逐步拆解它在Transformer中的具体处理流程、数学原理和关键作用。
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·transformer·word2vec
大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?我们先从 “归一化的目标”和“数据的特点” 两个生活化角度讲透核心区别,再逐步深入技术细节,结合Transformer的场景分析原因。
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性我们先从 “做饭步骤” 的生活化比喻讲清两种归一化的核心区别,再一步步拆解实验的设计思路、关键步骤和评估指标,最后深入到实验的细节和结果分析。
爱学习的张大1 天前
人工智能·深度学习·transformer
Transformer 可视化详解(第二部分):工作原理分步拆解直观易懂的 Transformer 系列:自然语言处理篇这是我的 Transformer 系列文章的第二篇。在第一篇中,我们讲解了 Transformer 的功能作用、应用场景、宏观架构设计,以及它相比其他模型的核心优势。
Hcoco_me1 天前
人工智能·rnn·深度学习·lstm·transformer·word2vec
大模型面试题34:Transformer的Encoder和Decoder区别与协作我们用 “翻译工作” 这个生活化场景,先讲明白两者的核心角色差异,再逐步拆解结构、机制和功能的不同,最后看它们如何配合完成任务。
Hcoco_me1 天前
人工智能·深度学习·学习·自然语言处理·transformer·word2vec
大模型面试题28:推导transformer layer的计算复杂度Transformer Layer的计算复杂度,本质由两个核心模块决定:当序列变长(L增大)时,“平方级”的注意力计算会快速主导复杂度,这也是Transformer处理长序列效率低的核心原因(比如L=1000时平方项是1e6,L=10000时就变成1e8,直接扩大100倍)。
kimi-2221 天前
langchain·transformer
DataCollator专为 Encoder-Decoder 架构(如 T5、BART、Flan-T5、Qwen2-VL 的文本部分)设计。
Coder个人博客1 天前
人工智能·自动驾驶·transformer
Transformers数据处理模块深度分析团队博客: 汽车电子社区Transformers数据处理模块是整个框架的数据处理中枢,负责从原始数据到模型输入的完整转换流程。该模块位于src/transformers/data/目录下,包含数据整理器、数据集处理、评估指标、数据处理器等多个关键组件。数据处理模块通过精心设计的抽象层,支持文本、图像、音频、多模态等多种数据类型,实现了高效的数据加载、预处理、批处理和评估。该模块是连接数据源和模型训练的关键桥梁,其设计质量直接影响整个系统的性能和可扩展性。本文档将从软件架构、调用流程、源码分析等多个维度对数
kimi-2221 天前
transformer
tokenizer.apply_chat_template()tokenizer.apply_chat_template() 是 Hugging Face transformers 库中用于将对话历史(messages)格式化为模型可接受的输入文本的关键方法,尤其在使用 Chat 模型(如 Qwen、Llama-3、ChatGLM、Phi-3 等) 时必不可少。
高洁011 天前
人工智能·深度学习·算法·机器学习·transformer
【无标题】深度学习—卷积神经网络(4) 感受野(Receptive field) 局部连接 卷积—对比#人工智能#具身智能#VLA#大模型#AI
爱学习的张大2 天前
人工智能·深度学习·transformer
图解Transformer原理(第一部分):功能总览本文翻译该网址Transformers Explained Visually (Part 1): Overview of Functionality | Towards Data Science
程序员学习Chat2 天前
人工智能·计算机视觉·transformer·自监督学习
计算机视觉Transformer-3 自监督模型这篇文章介绍Transformer结构在计算机视觉领域自监督的工作,需要了解Transformer基础结构:深度学习基础-5 注意力机制和Transformer
deephub2 天前
人工智能·深度学习·神经网络·transformer·残差链接
从贝叶斯视角解读Transformer的内部几何:mHC的流形约束与大模型训练稳定性Scaling Laws 已经成为深度学习领域的共识:更大的模型配合更多数据效果往往更好。但当参数量攀升至百亿乃至千亿级别时一个棘手的问题是:训练不稳定性。
一个处女座的程序猿3 天前
transformer·dl·hc·mhc
DL之Transformer之mHC:《mHC: Manifold-Constrained Hyper-Connections》翻译与解读DL之Transformer之mHC:《mHC: Manifold-Constrained Hyper-Connections》翻译与解读
Silence_Jy3 天前
人工智能·python·深度学习·transformer
Kimi K2技术报告Kimi K2是一个具有1000B参数规模的MOE架构的LLM,每次激活32B参数。该模型的主要贡献:
_codemonster3 天前
人工智能·bert·transformer
BERT和Transformer的双向性理解答案是:看具体是哪一部分。原始Transformer论文包含Encoder和Decoder:让我们看代码细节: