OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录

[01 基于GPT-4,改进GPT-4](#01 基于GPT-4,改进GPT-4)

[02 CriticGPT取得了哪些成果呢?](#02 CriticGPT取得了哪些成果呢?)

[03 RLHF的上限不再是人类](#03 RLHF的上限不再是人类)


近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

此外,它还能为这些错误撰写"评论",在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练......

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic,继续从事类似研究。

01 基于GPT-4,改进GPT-4

OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

人类无法提供反馈,RLHF"人类反馈强化学习"也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在训练过程中,他们还加入了一些有趣的环节。

例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演......

最后,OpenAI还采用了一种"强制采样束搜索"(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少"幻觉"和"鸡蛋里挑骨头"的现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

02 CriticGPT取得了哪些成果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现"幻觉"和无关紧要的挑剔。
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是"完美"的错误。

不过CriticGPT也不是十全十美,它也会有"幻觉"问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的"幻觉"。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

为什么选择从代码任务入手呢?

一方面,代码任务具有现实意义,开发出的模型可以直接应用。

另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

相关推荐
AI前沿技术追踪6 分钟前
OpenAI 12天发布会:AI革命的里程碑@附35页PDF文件下载
人工智能
余~~1853816280012 分钟前
稳定的碰一碰发视频、碰一碰矩阵源码技术开发,支持OEM
开发语言·人工智能·python·音视频
0zxm22 分钟前
06 - Django 视图view
网络·后端·python·django
刚学HTML42 分钟前
leetcode 05 回文字符串
算法·leetcode
galileo201643 分钟前
LLM与金融
人工智能
DREAM依旧1 小时前
隐马尔科夫模型|前向算法|Viterbi 算法
人工智能
AC使者1 小时前
#B1630. 数字走向4
算法
ROBOT玲玉1 小时前
Milvus 中,FieldSchema 的 dim 参数和索引参数中的 “nlist“ 的区别
python·机器学习·numpy
冠位观测者1 小时前
【Leetcode 每日一题】2545. 根据第 K 场考试的分数排序
数据结构·算法·leetcode
GocNeverGiveUp1 小时前
机器学习2-NumPy
人工智能·机器学习·numpy