python常用数据类型在pytorch中的对应
python | PyTorch |
---|---|
Int | IntTensor of size() |
float | FloatTensor of size() |
Int array | IntTensor of size [d1, d2,...] |
float array | FloatTensor of size[d1, d2,...] |
string | - - |
pytorch不是一个完备的语言库,而是一个面向数据计算的GPU加速库,对str字符类型没有直接支持的对应数据类型。
在免不了要处理str的情况下,那要如何表达str呢
1、One-hot
[0,1,0,0,...]
如表达猫狗两类别
2、Embedding(NLP):
Word2vec
glove
torch常用内置数据类型
数据类型推断
a为二维tensor数据,随机初始化两行三列数据
a.type() 返回一个字符串告诉a,其tensor的类型
type(a) 返回a的数据类型
isinstance(a,某tensor数据类型) 参数合法化检验,如果a跟该tensor数据类型一致,返回True
注:CPU和GPU的tensor不是同一类型,可以使用.cuda(),a.cuda()可以返回一个gpu上的引用
标量
标量是最简单的数据类型,dim为0
在python中直接表示为1.0、1.3,pytorch中的表示为:
torch.tensor(1.)
torch.tensor(1.3)
注:1.3是0维,但[1.3]是一维,长度为1的tensor
标量的shape:
a = torch.tensor(2.2)
a.shape 或者 a.size()
# 因为a是一个标量,会返回一个空的list类型的size
len(a.shape) 或者用 a.dim()
# 结果都会返回0的大小
向量
在torch中都统一称为张量
dim = 1时
torch.tensor([x1,x2,...])
#dim=1,张量长度可以为1,2,。。。
torch.FloatTensor(n)
#随机生成长度为n的一维张量
也可以从numpy引入
先通过numpy方法生成长度为n的向量
data = np.ones(n)
再使用 torch.from_numpy(data)引入
# 或者直接 torch.ones(2)
注: 主要用在 1、Bias,2、batch为1,dim为1.图片打平后的线性输入。
dim = 2时
随机初始化一个两行三列张量a
a = torch.randn(2,3)
a的尺寸:
a.shape
a.size()
具体看某一维度大小
a.shape[0] / a.shape[1]
a.size(0) / a.size(1)
dim = 3时
三维使用场景比较广泛,如 RNN语言处理
假如有5句话,每句话10个单词,batch设置每次处理8个单词
则输入为[8,5,10]
a = torch.rand(1,2,3)
# 生成三维张量
a.shape
a.[0] # ->(2,3)
list(a.shape)
#将a的尺寸格式转化为python通用列表
dim = 4时
较广泛适用于图片数据处理,如CNN:[b, c, h, w]
a.dim()查询维度为4
a.numel()
#a占有内存的数量,2328*28