关于torch.nn.Embedding的浅显理解

最近在使用词嵌入向量表示我的数据标签,并且在试图理解torch.nn.Embedding函数。

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, _freeze=False, device=None, dtype=None)

这里只解释我对前两个参数的理解,这也是我唯二理解的:num_embeddings(int) -- size of the dictionary of embeddings,其实就是你给Embedding函数的张量里互不相同的数的个数;embedding_dim (int) -- the size of each embedding vector也即生成的词嵌入向量的最后一个维度。For example:

python 复制代码
import torch.nn as nn
import torch

known_label_lt = nn.Embedding(3, 10)

label = torch.tensor([
    [1, 0, 1, 0, 1],
    [2, 1, 0, 2, 1],
    [1, 1, 2, 1, 0],
    [1, 1, 0, 1, 2]
]).long() # without .long(), will result in an error. 

state = known_label_lt(label)
print(state.shape)

这里输入的向量label里只能包含三个不同的数:0,1,2 。或者反过来说known_label_lt的第一个参数只能是3,known_label_lt的第二个参数就决定了label的每一个数会被扩展到10维。所以最后生成的词嵌入维度是:

python 复制代码
torch.Size([4, 5, 10])
相关推荐
十铭忘14 小时前
个人思考3——世界动作模型
人工智能·深度学习·计算机视觉
kkkkkkkkk_120114 小时前
【强化学习】09周博磊强化学习纲要学习笔记——第五课上
笔记·深度学习·学习·强化学习
相思半15 小时前
告别聊天机器人!2026 智能体元年:Claude 4.6 vs GPT-5.3 vs OpenClaw 全方位对比
人工智能·gpt·深度学习·claude·codex·智能体·seedance
人工智能培训15 小时前
大模型架构演进:从Transformer到MoE
人工智能·深度学习·大模型·transformer·知识图谱·具身智能·人工智能 培训
查无此人byebye16 小时前
实战DDPM扩散模型:MNIST手写数字生成+FID分数计算(完整可运行版)
人工智能·pytorch·python·深度学习·音视频
AI周红伟16 小时前
周红伟:SeedDance 2技术架构和技术原理
人工智能·深度学习·算法
宁远x16 小时前
【VeRL】Qwen3-30B-A3B-DAPO NPU实践指导
人工智能·深度学习·强化学习
高洁0117 小时前
大模型架构演进:从Transformer到MoE
python·深度学习·机器学习·数据挖掘·知识图谱
Suryxin.17 小时前
从0开始复现nano-vllm「ModelRunner.capture_cudagraph()」
人工智能·pytorch·深度学习·vllm
马拉AI18 小时前
Transformer范式改变?稀疏线性混合SALA架构发布,单卡5090跑通百万长文!
深度学习·架构·transformer