多任务学习AITM算法简介

解决什么问题?

有一类多任务具有前后依赖关系,比如CVR依赖CTR,比如出行领域的乘客取消动作发生在司机接单之后。

那么针对这类任务,大家都知道的是ESMM,AITM实在ESMM基础上更近一步。

主要创新点是什么?

  • 模型结构上,引入了AIT模块,用于提取前序任务到目标任务的信息转移
  • 损失函数方面,约束了前序任务的率大于后续任务

具体展开来讲

模型结构优化

如上图所示,t任务的输入包括两部分 pt−1p_{t-1}pt−1 和 qtq_tqt,计算公式分别如下:

AIT则是一个self-attention模块,其中h为MLP,<>为点积。

我认为这里的AIT也可以调整为qtq_tqt去attention pt−1p_{t-1}pt−1,做点积作为pt−1p_{t-1}pt−1的权重,或者经过变化,类似QKV的前置变换。

损失函数优化

多任务学习的损失函数,除了每个任务本身的CE算是,这里加上了一个正则,用于约束任务t的输出概率小于任务t-1。

模型效果如何

在美团信用卡预估任务上提升还是挺明显的。

总结

创新点还是听清楚,不过总感觉PLE这样的网络,从信息共享和提取的角度,按理说能cover这个模型的效果?有实践经验的同学可以评论讨论下。

打个广告

我们团队还在招算法工程师,工作1-8年的都看,可以私聊我。

相关推荐
其美杰布-富贵-李9 小时前
深度学习中的 tmux
服务器·人工智能·深度学习·tmux
LaughingZhu9 小时前
Product Hunt 每日热榜 | 2026-01-12
人工智能·经验分享·深度学习·神经网络·产品运营
不如自挂东南吱9 小时前
空间相关性 和 怎么捕捉空间相关性
人工智能·深度学习·算法·机器学习·时序数据库
小鸡吃米…9 小时前
机器学习中的简单线性回归
人工智能·机器学习·线性回归
长颈鹿仙女10 小时前
深度学习详解拟合,过拟合,欠拟合
人工智能·深度学习
散峰而望10 小时前
【算法竞赛】栈和 stack
开发语言·数据结构·c++·算法·leetcode·github·推荐算法
知乎的哥廷根数学学派10 小时前
基于多尺度注意力机制融合连续小波变换与原型网络的滚动轴承小样本故障诊断方法(Pytorch)
网络·人工智能·pytorch·python·深度学习·算法·机器学习
jjjddfvv10 小时前
超级简单启动llamafactory!
windows·python·深度学习·神经网络·微调·audiolm·llamafactory
星云数灵10 小时前
大模型高级工程师考试练习题8
人工智能·机器学习·大模型·大模型考试题库·阿里云aca·阿里云acp大模型考试题库·大模型高级工程师acp
A先生的AI之旅10 小时前
2025顶会TimeDRT快速解读
人工智能·pytorch·python·深度学习·机器学习