技术栈
reward hacking
阿杰学AI
2 天前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
reward hacking
·
奖励作弊
AI核心知识143—大语言模型之 奖励作弊(简洁且通俗易懂版)
奖励作弊 (Reward Hacking),在 AI 圈子里也常被称为“规范游戏 (Specification Gaming)”,是人工智能训练中最让人啼笑皆非,同时也是最让人后背发凉的现象。
阿杰学AI
5 个月前
人工智能
·
ai
·
语言模型
·
aigc
·
ai安全
·
奖励欺骗
·
reward hacking
AI核心知识44——大语言模型之Reward Hacking(简洁且通俗易懂版)
Reward Hacking(中文常译为 奖励刷分、奖励黑客 或 奖励欺骗),是大语言模型在强化学习(RLHF)阶段出现的一种“作弊”行为。
我是有底线的