OpenAI发布o1预览模型:推理能力更强可达理科博士生水准

近日OpenAI宣布推出了新一代 AI 模型系列 OpenAI o1,按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

那究竟是怎么一回事呢?

OpenAI CEO Sam Altman 表示:o1 系列的推出代表了 AI 能力的新起点,能够处理科学、编程、数学等领域中的复杂问题。

OpenAI o1 训练测试

在复杂的推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

它也被业界称为"草莓(Strawberry)项目",它是 OpenAI 内部用于开发 o1 模型的代号,实际上就是后来发布的 o1-preview 模型。

这个代号在公司内部广泛使用,因为"草莓"象征着这个项目带来的突破性推理能力。(此前发文的神秘帖子也在此暗示了)

至于网传GPT5,它并不是,o1 系列实际上是一个新范式的开始,是一个新命名和重新定位的 AI 发展方向,专注于复杂推理任务,并且与 GPT-4 系列有明显的提升。

与之前的模型相比,OpenAI o1 能够像人类一样在回答问题前进行深度思考,解决多步复杂任务。比如,在测试中,o1 的表现达到了博士生的水准,尤其是在物理、化学、生物等学科的难题上。而在编程方面,o1 模型在 Codeforces 竞赛中的表现优于之前的 GPT-4o。

Altman指出,虽然 o1 仍然有缺陷,并在长期使用后表现出一些局限,但这是一个新的范式的开端,预示了 AI 能够进行复杂推理的未来

OpenAI o1 测试表现

o1 系列模型经过训练,可以在做出反应之前花更多时间思考,从而改进推理过程并提高解决问题的能力。在初步测试中,推理模型的下一次更新在物理、化学和生物学任务上的表现与博士生相当,在数学和编码竞赛中取得了显著的成功。

在国际数学奥林匹克竞赛的资格考试中,该模型得分为 83%,而 GPT-4o 得分为 13%。

尽管 o1-preview 模型具有先进的推理能力,但它缺少 GPT-4 中的一些实用功能,例如浏览网页和文件上传。

不过,OpenAI 强调该模型在处理复杂任务方面的潜力,特别是在需要多步骤工作流程的领域。 作为发布的一部分,OpenAI 实施了一种新的安全训练方法,使模型能够更好地遵守安全规则。在越狱测试中,o1-preview 的表现优于 GPT-4o,得分为 84 分(满分 100 分),而 GPT-4o 得分为 22 分。

除了 o1-preview,OpenAI 还发布了一款更小、更经济的模型,名为o1-mini,专为需要高级编码能力但又不具备广泛世界知识的开发人员而设计。o1-mini 比 o1-preview 便宜 80%。

从今天开始,ChatGPT Plus 和 Team 用户可以从模型选择器中手动选择 o1-preview 和 o1-mini,o1-preview 的速率限制为 30 条消息,o1-mini 的速率限制为 50 条消息。

OpenAI 计划扩大 ChatGPT Free 用户对 o1-mini 的访问权限,并将继续为 o1 系列添加新功能,包括浏览和文件上传。

新模型简要特点

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

主要特点和进步

  1. 思路链推理

o1 模型可以在给出答案之前生成详细的推理步骤。这有助于它们遵循特定的指导方针和政策,确保满足安全期望。

  1. 增强安全性和稳健性

作为 OpenAI 最强大的模型,o1 系列在生成非法建议、避免刻板反应和抵抗已知越狱相关的基准测试中取得了最先进的性能。

  1. 基准测试性能提升

o1-preview模型在编码、数学和安全合规等各个领域均表现良好。它在具有挑战性的任务中表现优于 GPT-4o,并且在避免不允许的内容和幻觉方面表现出显著的进步。

安全挑战与评估

虽然 o1 模型提供了巨大的优势,但由于其智能程度的提高,它们也带来了新的安全挑战。OpenAI 进行了广泛的安全评估,包括内部测试和外部红队测试,以识别和减轻潜在风险。

这些评估侧重于:

  • 不允许的内容:确保模型不会产生有害或不适当的内容。
  • 越狱鲁棒性:测试模型对旨在绕过安全措施的对抗提示的抵抗力。
  • 幻觉:减少模型生成不正确或无意义信息的情况。
  • 偏见评估:评估并尽量减少模型响应中的任何不公平偏见。

适合对象

如果你正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。

例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

最后有话说

Sam Altman也坦承,虽然o1模型有些不足,比如在首次体验时感觉特别惊艳,但用久了之后,问题就会显现得更明显。不过,总体上来说,o1模型的表现还是很不错的。

而且这次o1的发布,感觉像是为下半年AI大战点燃了导火索。估计接下来,像Anthropic、Meta AI、xAI这些公司,还有一些隐藏的黑马,都会纷纷亮相了。

从GPT-4开始,OpenAI每次发布新模型,都不仅是为了展现性能的强大,更是在引领大家走向技术探索的更深水域。o1也不例外,它同样希望推动这样的变革。

如果你想升级chatgpt4、开通Claude的话,也可以看看往期文章👇
(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4

觉得升级费用暂时承担不起,也可以看看ChatGPT、Claude镜像站,1:1还原,国内访问不怕被封,有售后,最重要的是!价格会比官方便宜很多很多👇
ChatGPT4.0账号被封了怎么办?gpt4怎么买更便宜?先试试这个国内最新替代镜像站吧
详情可联系下方vx号,添加时请注明"镜像站"

相关推荐
Raink老师1 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1231 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师1 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学1 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak1 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen1 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师2 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史2 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间2 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间2 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板