reward hacking

AI核心知识143—大语言模型之奖励作弊（简洁且通俗易懂版）奖励作弊 (Reward Hacking)，在 AI 圈子里也常被称为“规范游戏 (Specification Gaming)”，是人工智能训练中最让人啼笑皆非，同时也是最让人后背发凉的现象。

AI核心知识44——大语言模型之Reward Hacking（简洁且通俗易懂版）Reward Hacking（中文常译为奖励刷分、奖励黑客或奖励欺骗），是大语言模型在强化学习（RLHF）阶段出现的一种“作弊”行为。

我是有底线的