位置编码

详解大模型的位置编码-positional encodingTransformer模型在处理序列数据时，自注意力机制通过计算输入序列中每个元素与其他元素之间的关系来提取信息。然而，它本质上是对输入序列中元素的位置不敏感的。也就是说自注意力机制只关注元素之间的关系，而忽略了元素在序列中的位置顺序。

小小面试官

DeepSeek详解：探索下一代语言模型在数字信息的浩瀚海洋中，每一滴水珠都承载着人类智慧的光芒。随着人工智能技术的发展，我们有了新的灯塔——DeepSeek，它如同一位无所不知的智者，在知识的海洋里为我们导航。想象一下，你正站在一片无垠的信息沙漠边缘，每一步都可能踏入未知的领域，这时，如果有一盏明灯指引方向，该是多么令人振奋的事情！而DeepSeek，正是这样的一盏明灯。

梦想是成为算法高手

带你从入门到精通——自然语言处理（五. Transformer中的自注意力机制和输入部分）建议先阅读我之前的博客，掌握一定的自然语言处理前置知识后再阅读本文，链接如下：带你从入门到精通——自然语言处理（一. 文本的基本预处理方法和张量表示）-CSDN博客

LLM的基础模型7：Positional Encoding大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域的重大发展。

decomposed Relative Positional Embeddings的理解relative positional embedding的一种实现方式是：先计算q和k的相对位置坐标，然后依据相对位置坐标从给定的table中取值。

关于SAM中decomposed Relative Positional Embeddings的理解关于SAM中decomposed Relative Positional Embeddings的理解。

【NLP】深入浅出全面回顾注意力机制注意力指人可以关注一些信息的同时忽略其他信息的选择能力。根据注意力范围的不同，分为软注意力和硬注意力：