技术栈
计算语言学
学术头条
1 个月前
人工智能
·
深度学习
·
算法
·
机器学习
·
语言模型
·
计算语言学
清华、智谱团队:探索 RLHF 的 scaling laws
基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。