pbrl

PbRL | 近两年论文阅读的不完全总结（选了比较熟悉的 20 篇，拼尽全力读完 10 篇，就读不动了… 读文献真是太难了……这篇文章是 PbRL 的开山之作，（可能）首次明确提出了 PbRL 试图解决 address 的核心问题：对于那些目标复杂、定义模糊、难以用数学形式描述的 task，我们希望从 human feedback 中学习一个 reward model，并将其作为 RL 的奖励函数。

offline RL · PbRL | LiRE：构造 A>B>C 的 RLT 列表，得到更多 preference 数据In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. Ho

PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPOPrefPPO 首次（？）出现在 PEBBLE，作为 pebble 的一个 baseline，是用 PPO 复现 Christiano et al. (2017) 的 PbRL 算法。

RIME：用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward modelPreference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts, which results i

PbRL | Preference Transformer：反正感觉 transformer 很强大Preference-based reinforcement learning (RL) provides a framework to train agents using human preferences between two behaviors. However, preference-based RL has been challenging to scale since it requires a large amount of human feedback to learn a rewar

我是有底线的