GPT-4o mini:推动高效智能的发展

OpenAI致力于让智能尽可能广泛地可及。今天,我们宣布推出GPT-4o mini,这是我们最具成本效益的小模型。我们预计GPT-4o mini将显著扩展使用AI构建的应用范围,使智能变得更加经济实惠。GPT-4o mini在MMLU测试中得分为82%,在LMSYS排行榜上的聊天偏好表现超过了GPT-41。其价格为每百万输入标记15美分,每百万输出标记60美分,比以前的前沿模型便宜一个数量级,比GPT-3.5 Turbo便宜超过60%。

GPT-4o mini以其低成本和低延迟支持广泛的任务,例如链式或并行调用多个模型(如调用多个API)、向模型传递大量上下文(如完整的代码库或对话历史),或通过快速的实时文本响应与客户互动(如客户支持聊天机器人)。

今天,GPT-4o mini在API中支持文本和视觉,未来将支持文本、图像、视频和音频的输入和输出。该模型具有128K标记的上下文窗口,每次请求支持最多16K输出标记,并且其知识截至2023年10月。借助与GPT-4o共享的改进标记器,处理非英语文本的成本现在更加经济。

具有卓越文本智能和多模态推理能力的小模型

GPT-4o mini在学术基准测试中,在文本智能和多模态推理方面超越了GPT-3.5 Turbo和其他小模型,并支持与GPT-4o相同的语言范围。在函数调用方面也表现出色,这使开发者能够构建能够与外部系统获取数据或执行操作的应用程序,并且在长上下文性能上优于GPT-3.5 Turbo。

GPT-4o mini在几个关键基准测试中表现卓越。

推理任务:GPT-4o mini在涉及文本和视觉的推理任务中优于其他小模型,在MMLU(文本智能和推理基准测试)中得分82.0%,相比之下,Gemini Flash得分为77.9%,Claude Haiku得分为73.8%。

数学和编程能力:GPT-4o mini在数学推理和编程任务中表现出色,优于市场上以前的小模型。在MGSM(数学推理测评)中,GPT-4o mini得分为87.0%,相比之下,Gemini Flash得分为75.5%,Claude Haiku得分为71.7%。在HumanEval(编程性能测评)中,GPT-4o mini得分为87.2%,相比之下,Gemini Flash得分为71.5%,Claude Haiku得分为75.9%。

多模态推理:GPT-4o mini在MMMU(多模态推理测评)中也表现出色,得分为59.4%,相比之下,Gemini Flash得分为56.1%,Claude Haiku得分为50.2%。

模型评估得分

作为我们模型开发过程的一部分,我们与一些受信任的合作伙伴合作,以更好地了解GPT-4o mini的用例和局限性。我们与Ramp和Superhuman等公司合作,这些公司发现GPT-4o mini在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务上,明显优于GPT-3.5 Turbo。

内置安全措施

安全性从一开始就内置在我们的模型中,并在开发过程的每一步得到加强。在预训练阶段,我们过滤掉不希望模型学习或输出的信息,如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。在后训练阶段,我们使用人类反馈强化学习(RLHF)等技术来调整模型的行为,以提高模型响应的准确性和可靠性。

GPT-4o mini具有与GPT-4o相同的内置安全缓解措施,我们根据《准备框架》进行了仔细评估,并符合我们的自愿承诺。70多位在社会心理学和虚假信息等领域的外部专家测试了GPT-4o,以识别潜在风险,我们已经解决了这些问题,并计划在即将发布的GPT-4o系统卡和准备得分卡中分享详细信息。这些专家评估的见解有助于提高GPT-4o和GPT-4o mini的安全性。

基于这些经验,我们的团队还使用新的技术提高了GPT-4o mini的安全性,这些技术基于我们的研究得出。API中的GPT-4o mini是第一个应用我们指令层次方法的模型,这有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这样可以使模型的响应更加可靠,并有助于在大规模应用中提高使用的安全性。

我们将继续监测GPT-4o mini的使用情况,并在发现新风险时改进模型的安全性。

可用性和定价

GPT-4o mini现已在助手API、聊天完成API和批处理API中作为文本和视觉模型提供。开发者支付每百万输入标记15美分和每百万输出标记60美分(大约相当于标准书籍的2500页)。我们计划在未来几天推出GPT-4o mini的微调功能。

在ChatGPT中,免费、Plus和团队用户将从今天起可以使用GPT-4o mini,取代GPT-3.5。企业用户也将从下周开始使用,这与我们让AI的好处惠及所有人的使命相一致。

未来展望

在过去的几年里,我们见证了AI智能的显著进步以及成本的大幅下降。例如,自2022年推出能力较弱的text-davinci-003以来,GPT-4o mini的每标记成本下降了99%。我们致力于继续沿着这条轨迹前进,在降低成本的同时增强模型的能力。

我们展望一个模型无缝集成到每个应用程序和每个网站的未来。GPT-4o mini正在为开发者更高效和更经济地构建和扩展强大的AI应用铺平道路。AI的未来正变得更加可及、可靠,并融入我们的日常数字体验中,我们很高兴继续引领这一道路。

阅读原文:GPT-4o mini: advancing cost-efficient intelligence

参考译文:[GPT-4o mini:推动高效智能的发展](

相关推荐
Yuleave2 分钟前
高效流式大语言模型(StreamingLLM)——基于“注意力汇聚点”的突破性研究
人工智能·语言模型·自然语言处理
cqbzcsq4 分钟前
ESMC-600M蛋白质语言模型本地部署攻略
人工智能·语言模型·自然语言处理
刀客1231 小时前
python3+TensorFlow 2.x(四)反向传播
人工智能·python·tensorflow
SpikeKing1 小时前
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
人工智能·llm·预训练·scalinglaws·100b·deepnorm·egs
小枫@码1 小时前
免费GPU算力,不花钱部署DeepSeek-R1
人工智能·语言模型
liruiqiang051 小时前
机器学习 - 初学者需要弄懂的一些线性代数的概念
人工智能·线性代数·机器学习·线性回归
Icomi_2 小时前
【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性,初识向量以及向量加法
c语言·c++·人工智能·深度学习·神经网络·机器学习·计算机视觉
微学AI2 小时前
GPU算力平台|在GPU算力平台部署可图大模型Kolors的应用实战教程
人工智能·大模型·llm·gpu算力
西猫雷婶2 小时前
python学opencv|读取图像(四十六)使用cv2.bitwise_or()函数实现图像按位或运算
人工智能·opencv·计算机视觉
IT古董2 小时前
【深度学习】常见模型-生成对抗网络(Generative Adversarial Network, GAN)
人工智能·深度学习·生成对抗网络