计算语言学 - 计算语言学技术,学习,经验文章

学术头条

2 年前

清华、智谱团队：探索 RLHF 的 scaling laws基于人类反馈的强化学习（RLHF）是优化大语言模型（LLM）行为的关键技术，能够让模型更符合人类偏好和需求，提升生成质量。