强化学习-数据操作与预处理

一、访问元素

语法如图,第一列更正:[:,1] , [第x行,第y列]

先学一下pytorch:本节内容全是基于pytorch的操作

1.导入pytorch

代码中使用torch而不是pytorch

复制代码
import torch

创建行向量arange

python 复制代码
x = torch.arange(7)
x
#output
tensor([0,1,2,3,4,5,6])

可以通过张量的shape属性来访问张量(沿每个轴的长度)的形状


复制代码
torch.randn(3, 4) 随机生成三行四列的张量
复制代码
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])指定生成张量

X = torch.arange(12, dtype=torch.float32).reshape((3,4))

reshape函数中,使用元组来表示形状,因为形状通常由多个维度组成,而且形状是固定的,不需要修改。

例如:

  • (3, 4) 表示2维,3行4列。

  • (2, 3, 4) 表示3维,2个3x4矩阵。

为什么用元组而不是列表?

  • 形状是固定的,不需要改变,所以用不可变的元组更合适。

  • 元组在性能上略有优势,因为不可变,所以可以缓存。

复制代码
# 创建元组
shape = (3, 4)
# 在reshape中使用
X.reshape(shape)  # 传递一个元组变量

torch.cat((X, Y), dim=0) - 沿着第0维拼接(行方向,垂直拼接)

torch.cat((X, Y), dim=1) - 沿着第1维拼接(列方向,水平拼接)


对张量中的所有元素进行求和,会产生一个单元素张量

复制代码
X.sum()
复制代码
tensor(66.)

广播机制

在上面的部分中,我们看到了如何在相同形状的两个张量上执行按元素操作。 在某些情况下,即使形状不同,我们仍然可以通过调用 广播机制(broadcasting mechanism)来执行按元素操作。 这种机制的工作方式如下:

  1. 通过适当复制元素来扩展一个或两个数组,以便在转换之后,两个张量具有相同的形状;

  2. 对生成的数组执行按元素操作。

复制代码
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

#输出

复制代码
(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

#操作

复制代码
a + b

#输出

复制代码
tensor([[0, 1],
        [1, 2],
        [2, 3]])

#都变成3行2列,通过复制自身行或者列

索引和切片

我们可以用[-1]选择最后一个元素,可以用[1:3]选择第二个和第三个元素:

除读取外,我们还可以通过指定索引来将元素写入矩阵。

复制代码
X[1, 2] = 9
X

#输出

复制代码
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

第2行3列的元素变成9


更新张量内容:

可以使用X[:] = X + YX += Y来减少操作的内存开销。


要将大小为1的张量转换为Python标量,我们可以调用item函数或Python的内置函数。

深度学习存储和操作数据的主要接口是张量

相关推荐
人工智能培训1 天前
10分钟了解向量数据库(3)
人工智能·大模型·知识图谱·强化学习·智能体搭建
在西安放羊的牛油果2 天前
原型污染安全漏洞
前端·强化学习
春日见2 天前
强化学习第一讲:强化学习是什么,强化学习分类
开发语言·jvm·人工智能·python·学习·matlab·强化学习
人工智能培训3 天前
强化学习路径规划:技术内核与应用实践
人工智能·大模型·知识图谱·强化学习·智能体搭建
2503_946971863 天前
【AGI/认知计算】2025年度通用人工智能图灵测试与极端环境生存仿真基准数据集(含机械姬/火星救援核心样本)
自动驾驶·知识图谱·强化学习·agi·图灵测试
饮哉4 天前
PPO和GRPO面经
强化学习
hk11244 天前
【RL/Virtualization】2026年度深度强化学习策略与云原生意识虚拟化基准索引 (Benchmark Index)
人工智能·云计算·数据集·元宇宙·强化学习
都叫我大帅哥4 天前
PPO:那个让你在强化学习路上少摔几跤的“调酒师”
人工智能·算法·强化学习
DeepVis Research6 天前
【AGI Safety/Robotics】2026年度 AGI 对抗性强化学习与软体机器人控制基准索引 (Skynet/Legion Core)
人工智能·网络安全·机器人·数据集·强化学习
nju_spy6 天前
强化学习 -- 无导数随机优化算法玩俄罗斯方块Tetris(交叉熵方法CE + ADP近似动态规划CBMPI)
人工智能·强化学习·策略迭代·近似动态规划·交叉熵方法·价值函数近似·无导数优化