OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录

[01 基于GPT-4,改进GPT-4](#01 基于GPT-4,改进GPT-4)

[02 CriticGPT取得了哪些成果呢?](#02 CriticGPT取得了哪些成果呢?)

[03 RLHF的上限不再是人类](#03 RLHF的上限不再是人类)


近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

此外,它还能为这些错误撰写"评论",在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练......

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic,继续从事类似研究。

01 基于GPT-4,改进GPT-4

OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

人类无法提供反馈,RLHF"人类反馈强化学习"也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在训练过程中,他们还加入了一些有趣的环节。

例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演......

最后,OpenAI还采用了一种"强制采样束搜索"(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少"幻觉"和"鸡蛋里挑骨头"的现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

02 CriticGPT取得了哪些成果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现"幻觉"和无关紧要的挑剔。
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是"完美"的错误。

不过CriticGPT也不是十全十美,它也会有"幻觉"问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的"幻觉"。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

为什么选择从代码任务入手呢?

一方面,代码任务具有现实意义,开发出的模型可以直接应用。

另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

相关推荐
神奇夜光杯7 分钟前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠9 分钟前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
千天夜19 分钟前
使用UDP协议传输视频流!(分片、缓存)
python·网络协议·udp·视频流
Debroon19 分钟前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
测试界的酸菜鱼22 分钟前
Python 大数据展示屏实例
大数据·开发语言·python
小码农<^_^>24 分钟前
优选算法精品课--滑动窗口算法(一)
算法
羊小猪~~26 分钟前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习
AI小杨27 分钟前
【车道线检测】一、传统车道线检测:基于霍夫变换的车道线检测史诗级详细教程
人工智能·opencv·计算机视觉·霍夫变换·车道线检测
晨曦_子画32 分钟前
编程语言之战:AI 之后的 Kotlin 与 Java
android·java·开发语言·人工智能·kotlin
道可云33 分钟前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr