morl

基于梯度组合的多任务 / 多目标学习多任务学习一直是机器学习中的一个诱人愿景：让单个模型同时掌握多项技能，像人类一样举一反三，提升数据利用效率。然而，在现实中，同时学习多个任务，效果有时还不如为每个任务单独训练一个模型。

MORL | Envelope Q-Learning：有收敛性保证的 MORL 算法在多目标强化学习中，我们需要同时优化多个竞争目标，如速度、准确率、成本等。这篇文章的 intro 里举了一个例子：一个虚拟助手，与人类沟通以执行特定任务时，根据用户在成功率或简洁性等方面的相对偏好，可能需要遵循完全不同的策略。例如，提供天气报告时，agent 应该提供尽可能正确、详细的回应；在提供一个完成任务的逐轮引导时，agent 需要找到完成任务的最短路径，而非跟用户输出冗长的语言；这个例子说明，研究 MORL agent 在现实世界中是有对应场景的。

我是有底线的