多任务学习AITM算法简介

解决什么问题?

有一类多任务具有前后依赖关系,比如CVR依赖CTR,比如出行领域的乘客取消动作发生在司机接单之后。

那么针对这类任务,大家都知道的是ESMM,AITM实在ESMM基础上更近一步。

主要创新点是什么?

  • 模型结构上,引入了AIT模块,用于提取前序任务到目标任务的信息转移
  • 损失函数方面,约束了前序任务的率大于后续任务

具体展开来讲

模型结构优化

如上图所示,t任务的输入包括两部分 pt−1p_{t-1}pt−1 和 qtq_tqt,计算公式分别如下:

AIT则是一个self-attention模块,其中h为MLP,<>为点积。

我认为这里的AIT也可以调整为qtq_tqt去attention pt−1p_{t-1}pt−1,做点积作为pt−1p_{t-1}pt−1的权重,或者经过变化,类似QKV的前置变换。

损失函数优化

多任务学习的损失函数,除了每个任务本身的CE算是,这里加上了一个正则,用于约束任务t的输出概率小于任务t-1。

模型效果如何

在美团信用卡预估任务上提升还是挺明显的。

总结

创新点还是听清楚,不过总感觉PLE这样的网络,从信息共享和提取的角度,按理说能cover这个模型的效果?有实践经验的同学可以评论讨论下。

打个广告

我们团队还在招算法工程师,工作1-8年的都看,可以私聊我。

相关推荐
巫婆理发2224 小时前
循环序列模型
深度学习·神经网络
春日见5 小时前
vscode代码无法跳转
大数据·人工智能·深度学习·elasticsearch·搜索引擎
zhangfeng11338 小时前
氨基酸序列表示法,蛋白质序列表达 计算机中机器学习 大语言模型中的表达,为什么没有糖蛋白或者其他基团磷酸化甲基化乙酰化泛素化
人工智能·机器学习·语言模型
OpenBayes8 小时前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
退休钓鱼选手9 小时前
[ Pytorch教程 ] 神经网络的基本骨架 torch.nn -Neural Network
pytorch·深度学习·神经网络
哥布林学者10 小时前
吴恩达深度学习课程:深度学习入门笔记全集目录
深度学习·ai
Eloudy10 小时前
直接法 读书笔记 01 第1章 引言
人工智能·机器学习·hpc
xsc-xyc10 小时前
RuntimeError: Dataset ‘/data.yaml‘ error ❌ ‘_lz
人工智能·深度学习·yolo·计算机视觉·视觉检测
AEIC学术交流中心10 小时前
【快速EI检索 | SPIE出版】2026年机器学习与大模型国际学术会议(ICMLM 2026)
人工智能·机器学习
WHD30610 小时前
苏州误删除 格式化 服务器文件 恢复
随机森林·支持向量机·深度优先·爬山算法·宽度优先·推荐算法·最小二乘法