技术栈

离线强化学习

nju_spy
4 小时前
人工智能·强化学习·cvae·离线强化学习·双 q 学习·bcq·外推泛化误差
离线强化学习(一)BCQ 批量限制 Q-learningB站 张伟楠 离线RL动手学RL 离线RLBCQ: Batch-Constrained Q-learning
我是有底线的