多任务学习AITM算法简介

解决什么问题?

有一类多任务具有前后依赖关系,比如CVR依赖CTR,比如出行领域的乘客取消动作发生在司机接单之后。

那么针对这类任务,大家都知道的是ESMM,AITM实在ESMM基础上更近一步。

主要创新点是什么?

  • 模型结构上,引入了AIT模块,用于提取前序任务到目标任务的信息转移
  • 损失函数方面,约束了前序任务的率大于后续任务

具体展开来讲

模型结构优化

如上图所示,t任务的输入包括两部分 pt−1p_{t-1}pt−1 和 qtq_tqt,计算公式分别如下:

AIT则是一个self-attention模块,其中h为MLP,<>为点积。

我认为这里的AIT也可以调整为qtq_tqt去attention pt−1p_{t-1}pt−1,做点积作为pt−1p_{t-1}pt−1的权重,或者经过变化,类似QKV的前置变换。

损失函数优化

多任务学习的损失函数,除了每个任务本身的CE算是,这里加上了一个正则,用于约束任务t的输出概率小于任务t-1。

模型效果如何

在美团信用卡预估任务上提升还是挺明显的。

总结

创新点还是听清楚,不过总感觉PLE这样的网络,从信息共享和提取的角度,按理说能cover这个模型的效果?有实践经验的同学可以评论讨论下。

打个广告

我们团队还在招算法工程师,工作1-8年的都看,可以私聊我。

相关推荐
koo3641 小时前
李宏毅机器学习笔记33
人工智能·笔记·机器学习
无风听海1 小时前
神经网络之密集的词向量如何能够代表稀疏的词向量
人工智能·神经网络·机器学习
文火冰糖的硅基工坊1 小时前
[人工智能-大模型-74]:模型层技术 - 模型训练六大步:③神经网络,预测输出:基本功能与对应的基本组成函数
人工智能·深度学习·神经网络
淡漠的蓝精灵1 小时前
深度解析Weights & Biases:让AI实验管理变得如此简单
人工智能·其他·机器学习
音视频牛哥2 小时前
低空经济的实时神经系统:空地一体化音视频架构的技术演进
机器学习·计算机视觉·音视频·低空经济·人工智能+·evtol·ai感知网络
Zyx20073 小时前
用 JavaScript 打造 AI 大脑:前端开发者的新时代——基于 Brain.js 的浏览器端 NLP 实战
javascript·机器学习
Hs_QY_FX3 小时前
幸福指数数据分析与预测:从数据预处理到模型构建完整案例
开发语言·python·机器学习
深度学习lover4 小时前
<项目代码>yolo螺丝螺母识别<目标检测>
人工智能·python·深度学习·yolo·目标检测·计算机视觉·螺丝螺母识别
hrrrrb5 小时前
【机器学习】监督学习
人工智能·学习·机器学习
长桥夜波6 小时前
【第十九周】机器学习笔记08
人工智能·笔记·机器学习