多任务学习AITM算法简介

解决什么问题?

有一类多任务具有前后依赖关系,比如CVR依赖CTR,比如出行领域的乘客取消动作发生在司机接单之后。

那么针对这类任务,大家都知道的是ESMM,AITM实在ESMM基础上更近一步。

主要创新点是什么?

  • 模型结构上,引入了AIT模块,用于提取前序任务到目标任务的信息转移
  • 损失函数方面,约束了前序任务的率大于后续任务

具体展开来讲

模型结构优化

如上图所示,t任务的输入包括两部分 pt−1p_{t-1}pt−1 和 qtq_tqt,计算公式分别如下:

AIT则是一个self-attention模块,其中h为MLP,<>为点积。

我认为这里的AIT也可以调整为qtq_tqt去attention pt−1p_{t-1}pt−1,做点积作为pt−1p_{t-1}pt−1的权重,或者经过变化,类似QKV的前置变换。

损失函数优化

多任务学习的损失函数,除了每个任务本身的CE算是,这里加上了一个正则,用于约束任务t的输出概率小于任务t-1。

模型效果如何

在美团信用卡预估任务上提升还是挺明显的。

总结

创新点还是听清楚,不过总感觉PLE这样的网络,从信息共享和提取的角度,按理说能cover这个模型的效果?有实践经验的同学可以评论讨论下。

打个广告

我们团队还在招算法工程师,工作1-8年的都看,可以私聊我。

相关推荐
weixin_4640780716 分钟前
环境配置。
人工智能·深度学习
黑客思维者18 分钟前
机器学习012:监督学习【回归算法】(对比)-- AI预测世界的“瑞士军刀”
人工智能·学习·机器学习·回归·逻辑回归
*星星之火*20 分钟前
【大白话 AI 答疑】第9篇 深入浅出:sigmoid函数公式设计原理——为何是$e^{-x}$而非$e^x$
人工智能·机器学习
*星星之火*1 小时前
【大白话 AI 答疑】第8篇 BERT与传统机器学习(如贝叶斯)在文本分类中的区别及效果对比
人工智能·机器学习·bert
渡我白衣1 小时前
计算机组成原理(7):定点数的编码表示
汇编·人工智能·嵌入式硬件·网络协议·机器学习·硬件工程
haiyu_y1 小时前
Day 45 预训练模型
人工智能·python·深度学习
Robot侠1 小时前
视觉语言导航从入门到精通(四)
人工智能·深度学习·transformer·rag·视觉语言导航·vln
科学最TOP2 小时前
xLSTM-Mixer:基于记忆混合的多变量时间序列预测
大数据·人工智能·算法·机器学习·时间序列
智算菩萨2 小时前
【理论讲解】深度多任务学习:概念体系、方法谱系与跨领域建模逻辑
人工智能·机器学习·多任务学习
540_5402 小时前
ADVANCE Day26
人工智能·python·机器学习