技术栈

计算语言学

学术头条
6 个月前
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
清华、智谱团队:探索 RLHF 的 scaling laws基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。