关于腾讯广告算法大赛2025项目分析3-重读

一、初始化

1.1 数据处理:MyDataset类

  1. 实例化 init
  2. DataLoader:batch 化和并行加载
    train_loader = DataLoader(dataset, batch_size=args.batch_size,shuffle=True, num_workers=12,collate_fn=dataset.collate_fn)
    对MyDataset类的函数调用顺序:
    len →\rightarrow→ getitem ( load_user_data →\rightarrow→random_neq →\rightarrow→get_time_diff_bin) →\rightarrow→collate_fn
  3. 数据集self.
    • self.data_dir 文件夹路径,self.data_file_path文件seq.jsonl路径
    • self.seq_offsets 文件seq.jsonl每一行的起始文件指针位置偏移
    • self.maxlen 最大序列长度
    • self.mm_emb_ids 多模态特征ID汇总
    • self.itemnum用户数,self.usernum物品数
    • 字典:self.item_feat_dict物品静态特征,self.mm_emb_dict多模态嵌入embedding,
      self.indexer索引映射(用户id,物品id,特征值映射),self.indexer_i_rev反查字典,self.indexer_u_rev
    • 特征: feat_default_value:特征缺省值,feat_types特征总字典,feat_statistics特征不同类型数量
  4. 一条数据格式:seq序列ID,pos正样本ID(下一个真实访问的item),neg,token_type 序列类型:用户/物品,next_token_type,seq_feat序列特征,pos_feat正样本特征,neg_feat
  5. batch:seq, pos, neg, token_type, next_token_type, next_action_type, seq_feat, pos_feat, neg_feat, time_feat
    • seqseq1,seq2,...,seqnseq_1,seq_2,...,seq_nseq1,seq2,...,seqn,由n个用户组成
    • time_featweekday,is_weekend,hour_feat,day_of_year,week_of_year,time_deltas,action_type
    • seq,pos,neg_feat:全部处理成batch,maxseqlen 的二维或者三维 tensor

1.2 模型:BaselineModel类

1.2.1 初始化

  1. 全局配置:self.user_num,self.item_num,self.dev,self.norm_first,self.maxlen
  2. ID Embedding:self.item_emb,self.user_emb
  3. 位置编码:self.pos_emb
  4. HSTU 主干-Transformer(变式)
    • self.emb_dropout,self.emb_layernorm
    • 特征embedding容器:self.sparse_emb离散特征,self.emb_transform连续特征
    • 主干网络容器:self.attention_layers,self.attention_layernorms,self.forward_layers,self.forward_layernorms
  5. 按特征类型分组产生不同的字典,方便声明稀疏特征的Embedding Table:self.USER_SPARSE_FEAT/USER_CONTINUAL_FEAT/ITEM_SPARSE_FEAT/ITEM_CONTINUAL_FEAT/USER_ARRAY_FEAT/ITEM_ARRAY_FEAT/ITEM_EMB_FEAT
  6. user/item特征拼接 -> DNN投影层
  7. 序列建模主干:多层 HSTU + FFN

main中初始化赋值

  1. 初始化所有参数
  • user_emb,item_emb:全零化处理

  • 其他:xavier_normal

  1. 所有emb权重 padding 位置(第0行)清零

1.3 优化器:AdamW

1.4 权重衰减:args.l2_emb

1.5 学习率策略:warmup + cosine decay

2 训练

model.train:将模式设置为训练模式

从 dataloader 依次取不同的batch

2.2 model.forward

2.3 计算损失:infonce_loss

2.4 记录日志

2.5 反向传播

2.6 更新参数

3 细节处理

  1. torch.nn.
    • Embedding升维:从 ID 变成向量 ,矩阵形状(B,L)→(B,L,D)(B, L) \rightarrow (B, L, D)(B,L)→(B,L,D)
    • Dropout随机丢弃:部分元素变 0,其余放大1/(1-p)
    • RMSNorm均方根归一化:对输入特征进行缩放
    • ModuleDict层字典容器:按Key灵活调用不同的模块→\rightarrow→选择
    • ModuleList层列表容器:像 Python 列表一样存储子模块,但会向 PyTorch 注册参数→\rightarrow→顺序执行
    • Linear:
相关推荐
李二。3 分钟前
鸿蒙原生ArkTS-系外行星百科AI
人工智能·华为·harmonyos
大模型最新论文速读6 分钟前
06-04 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
清辞85312 分钟前
入门大模型工程师第四课----通过RAG增强大模型原本无法回答的问题
大数据·人工智能·学习·语言模型
森诺Alyson13 分钟前
前沿技术借鉴研讨-2026.6.4(孕期持续累积高温暴露显著升高妊娠期糖尿病患病风险)
论文阅读·人工智能·经验分享
Urbano13 分钟前
夹克制作全流程科普:工艺标准、自动化改造与设备科学选型
人工智能
虎冯河18 分钟前
AI人工智能技术类文章
人工智能·aigc
AI视觉网奇20 分钟前
Bambu Studio 发现 xx个开放边
开发语言·人工智能·python
七老板的blog21 分钟前
多阶段 AI 评测流水线架构设计与实践
java·人工智能·spring
程序员cxuan23 分钟前
Codex 一直 Reconnecting?我最后发现,常见就两个坑
人工智能·后端·程序员
fan654041426 分钟前
高端制造行业AI搜索优化服务商选型:技术维度的4个评估标准
人工智能·制造