技术栈

reward hacking

阿杰学AI
4 小时前
人工智能·ai·语言模型·aigc·ai安全·奖励欺骗·reward hacking
AI核心知识44——大语言模型之Reward Hacking(简洁且通俗易懂版)Reward Hacking(中文常译为 奖励刷分、奖励黑客 或 奖励欺骗),是大语言模型在强化学习(RLHF)阶段出现的一种“作弊”行为。
我是有底线的