从零实现 Transformer:第 0 部分 - 基础( Foundations)view 重塑形状 和 transpose 交换维度顺序

从零实现 Transformer:第 0 部分 - 基础( Foundations)view 重塑形状 和 transpose 交换维度顺序

flyfish

view 复用原张量同一块底层内存数据,只是换了一种维度解读方式,不会在内存中创建物理副本。

cpp 复制代码
import torch

x = torch.arange(1,13).view(6,2)
print(x)

y = torch.arange(0,12).view(2,2,3)
print(y)
cpp 复制代码
tensor([[ 1,  2],
        [ 3,  4],
        [ 5,  6],
        [ 7,  8],
        [ 9, 10],
        [11, 12]])
cpp 复制代码
tensor([[[ 0,  1,  2],
         [ 3,  4,  5]],

        [[ 6,  7,  8],
         [ 9, 10, 11]]])
cpp 复制代码
import torch

# ===================== 1. 原始张量(对应图顶部的一维数据) =====================
print("===== 原始一维张量 =====")
x = torch.arange(1, 13)  # 生成 [1,2,...,12]
print(x)
# ===================== 2. view(6,2) 连续张量(对应图左侧) =====================
print("===== view(6,2) → 连续张量 =====")
x_contiguous = x.view(6, 2)
print(x_contiguous)
print(f"是否连续: {x_contiguous.is_contiguous()}")
print("-"*50)

# ===================== 3. transpose(0,1) 非连续张量(对应图右侧) =====================
print("===== transpose(0,1) → 非连续张量 =====")
x_non_contiguous = x_contiguous.transpose(0, 1)
print(x_non_contiguous)
print(f"是否连续: {x_non_contiguous.is_contiguous()}")

输出

cpp 复制代码
tensor([[ 1,  2],
        [ 3,  4],
        [ 5,  6],
        [ 7,  8],
        [ 9, 10],
        [11, 12]])
是否连续: True
--------------------------------------------------
===== transpose(0,1) → 非连续张量 =====
tensor([[ 1,  3,  5,  7,  9, 11],
        [ 2,  4,  6,  8, 10, 12]])
是否连续: False

transpose

  1. transpose(dim0, dim1)仅交换两个指定维度,不复制数据
  2. 二维transpose(0,1) = 矩阵转置,等价于 .t()
  3. 视图特性:和原张量共享内存,修改任意一个都会同步变化
  4. 连续性transpose 会把连续张量变成非连续张量

示例

cpp 复制代码
import torch

# ===================== 示例1:二维张量转置(最常用,矩阵转置) =====================
print("===== 1. 二维张量 transpose =====")
x = torch.arange(1, 7).view(2, 3)  # 2行3列
print("原始张量:\n", x)
# 交换维度0和维度1(行和列)
y = torch.transpose(x, 0, 1)
print("转置后(3行2列):\n", y)
# 简写:x.t() 等价于 x.transpose(0,1)
print("简写x.t():\n", x.t())
print("-"*50)

# ===================== 示例2:三维张量交换维度 =====================
print("===== 2. 三维张量 transpose =====")
x = torch.randn(2, 3, 4)  # 形状 [2,3,4]
print("原始形状:", x.shape)
# 交换维度1和维度2
y = x.transpose(1, 2)
print("交换dim1和dim2后形状:", y.shape)  # [2,4,3]
# 交换维度0和维度1
z = x.transpose(0, 1)
print("交换dim0和dim1后形状:", z.shape)  # [3,2,4]
print("-"*50)

# ===================== 示例3:验证transpose是视图(共享内存) =====================
print("===== 3. transpose 共享内存(修改一个,全变) =====")
x = torch.tensor([[1,2],[3,4]])
y = x.transpose(0, 1)
print("原x:\n", x)
print("转置y:\n", y)

# 修改转置后的张量
y[0, 1] = 999
print("\n修改y后,x自动变化:\n", x)
print("修改y后,y:\n", y)
print("-"*50)

# ===================== 示例4:transpose 生成非连续张量 =====================
print("===== 4. transpose 与连续性 =====")
x = torch.arange(1, 13).view(2, 6)
print("是否连续:", x.is_contiguous())  # True

y = x.transpose(0, 1)
print("转置后是否连续:", y.is_contiguous())  # False
print("转置步幅:", y.stride())

# 非连续张量转连续
z = y.contiguous()
print("contiguous()后是否连续:", z.is_contiguous())  # True

输出

cpp 复制代码
===== 1. 二维张量 transpose =====
原始张量:
 tensor([[1, 2, 3],
        [4, 5, 6]])
转置后(3行2列):
 tensor([[1, 4],
        [2, 5],
        [3, 6]])
简写x.t():
 tensor([[1, 4],
        [2, 5],
        [3, 6]])
--------------------------------------------------
===== 2. 三维张量 transpose =====
原始形状: torch.Size([2, 3, 4])
交换dim1和dim2后形状: torch.Size([2, 4, 3])
交换dim0和dim1后形状: torch.Size([3, 2, 4])
--------------------------------------------------
===== 3. transpose 共享内存(修改一个,全变) =====
原x:
 tensor([[1, 2],
        [3, 4]])
转置y:
 tensor([[1, 3],
        [2, 4]])

修改y后,x自动变化:
 tensor([[  1,   2],
        [999,   4]])
修改y后,y:
 tensor([[  1, 999],
        [  2,   4]])
--------------------------------------------------
===== 4. transpose 与连续性 =====
是否连续: True
转置后是否连续: False
转置步幅: (1, 6)
contiguous()后是否连续: True
相关推荐
数智工坊3 小时前
【深度学习RL】A3C:异步强化学习的革命——用CPU打败GPU的深度RL算法
论文阅读·人工智能·深度学习·算法·transformer
数智工坊3 小时前
【深度学习RL】DQN:深度强化学习的里程碑——让AI从像素中学会玩Atari游戏
论文阅读·人工智能·深度学习·游戏·transformer
数智工坊4 小时前
【RL理论奠基】时序差分学习的奠基之作:从预测问题到TD(λ)家族的完整理论
论文阅读·人工智能·深度学习·学习·transformer·迁移学习
致Great21 小时前
零索引、零 embedding、纯 grep:DCI直接在原始语料上做 deep research
embedding
倔强的胖蚂蚁1 天前
Transformer 大模型原理 完整入门指南
人工智能·深度学习·云原生·transformer
机器学习之心1 天前
DBO-Transformer模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析(附MATLAB代码)
深度学习·回归·transformer·shap分析
打小就很皮...2 天前
基于 Python + LangChain + RAG 的知识检索系统实战
前端·langchain·embedding·rag
低调小一2 天前
Midscene.js 原理拆解:它不是“自然语言点按钮”,而是一套会看屏幕的 UI 自动化运行时
人工智能·rnn·架构·大模型·transformer·tdd·midscene
輕華2 天前
Transformer架构深度解析——从Attention到BERT的基石
深度学习·bert·transformer