技术栈
偏好对齐
BQW_
1 年前
自然语言处理
·
大模型
·
llm
·
rlhf
·
偏好对齐
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架
论文地址:https://arxiv.org/pdf/2310.12036.pdf相关博客 【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架 【强化学习】PPO:近端策略优化算法