OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录

[01 基于GPT-4,改进GPT-4](#01 基于GPT-4,改进GPT-4)

[02 CriticGPT取得了哪些成果呢?](#02 CriticGPT取得了哪些成果呢?)

[03 RLHF的上限不再是人类](#03 RLHF的上限不再是人类)


近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

此外,它还能为这些错误撰写"评论",在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练......

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic,继续从事类似研究。

01 基于GPT-4,改进GPT-4

OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

人类无法提供反馈,RLHF"人类反馈强化学习"也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在训练过程中,他们还加入了一些有趣的环节。

例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演......

最后,OpenAI还采用了一种"强制采样束搜索"(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少"幻觉"和"鸡蛋里挑骨头"的现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

02 CriticGPT取得了哪些成果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现"幻觉"和无关紧要的挑剔。
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是"完美"的错误。

不过CriticGPT也不是十全十美,它也会有"幻觉"问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的"幻觉"。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

为什么选择从代码任务入手呢?

一方面,代码任务具有现实意义,开发出的模型可以直接应用。

另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

相关推荐
不爱学英文的码字机器4 分钟前
数字孪生的浪潮:从虚拟镜像到现实世界的 IT 变革
大数据·python
小白—人工智能8 分钟前
数据可视化 —— 直方图
python·信息可视化·数据可视化
九亿AI算法优化工作室&13 分钟前
结合大语言模型的机械臂抓取操作学习
人工智能·学习·语言模型·自然语言处理
kaamelai13 分钟前
Kaamel视角下的MCP安全最佳实践
大数据·人工智能·安全
我要学脑机17 分钟前
基于常微分方程的神经网络(Neural ODE)
人工智能·深度学习·神经网络
渭雨轻尘_学习计算机ing18 分钟前
二叉树构建算法全解析
算法·程序员
有颜有货28 分钟前
2025汽车制造企业数字化转型路径参考
人工智能·汽车·制造·数字化转型
阿星AI工作室31 分钟前
小白也能用AI开发「小红书自动归档多维表格」采集神器,躺平整理笔记真香
人工智能
云天徽上32 分钟前
【数据可视化-42】杂货库存数据集可视化分析
人工智能·机器学习·信息可视化·数据挖掘·数据分析
大模型真好玩35 分钟前
初学者必看大模型微调指南:Unsloth官方微调技巧大公开!
人工智能·python