技术栈

morl

MoonOut
21 天前
morl
基于梯度组合的多任务 / 多目标学习多任务学习一直是机器学习中的一个诱人愿景:让单个模型同时掌握多项技能,像人类一样举一反三,提升数据利用效率。然而,在现实中,同时学习多个任务,效果有时还不如为每个任务单独训练一个模型。
MoonOut
2 个月前
morl
MORL | Envelope Q-Learning:有收敛性保证的 MORL 算法在多目标强化学习中,我们需要同时优化多个竞争目标,如速度、准确率、成本等。这篇文章的 intro 里举了一个例子:一个虚拟助手,与人类沟通以执行特定任务时,根据用户在成功率或简洁性等方面的相对偏好,可能需要遵循完全不同的策略。例如,提供天气报告时,agent 应该提供尽可能正确、详细的回应;在提供一个完成任务的逐轮引导时,agent 需要找到完成任务的最短路径,而非跟用户输出冗长的语言;这个例子说明,研究 MORL agent 在现实世界中是有对应场景的。
我是有底线的