技术栈

人类偏好

AIzealot无
5 个月前
人工智能·深度学习·语言模型·大模型·强化学习·人类偏好
论文解读之learning to summarize with human feedback最近在看大模型训练相关的论文,预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback