GPT-4o mini:推动高效智能的发展

OpenAI致力于让智能尽可能广泛地可及。今天,我们宣布推出GPT-4o mini,这是我们最具成本效益的小模型。我们预计GPT-4o mini将显著扩展使用AI构建的应用范围,使智能变得更加经济实惠。GPT-4o mini在MMLU测试中得分为82%,在LMSYS排行榜上的聊天偏好表现超过了GPT-41。其价格为每百万输入标记15美分,每百万输出标记60美分,比以前的前沿模型便宜一个数量级,比GPT-3.5 Turbo便宜超过60%。

GPT-4o mini以其低成本和低延迟支持广泛的任务,例如链式或并行调用多个模型(如调用多个API)、向模型传递大量上下文(如完整的代码库或对话历史),或通过快速的实时文本响应与客户互动(如客户支持聊天机器人)。

今天,GPT-4o mini在API中支持文本和视觉,未来将支持文本、图像、视频和音频的输入和输出。该模型具有128K标记的上下文窗口,每次请求支持最多16K输出标记,并且其知识截至2023年10月。借助与GPT-4o共享的改进标记器,处理非英语文本的成本现在更加经济。

具有卓越文本智能和多模态推理能力的小模型

GPT-4o mini在学术基准测试中,在文本智能和多模态推理方面超越了GPT-3.5 Turbo和其他小模型,并支持与GPT-4o相同的语言范围。在函数调用方面也表现出色,这使开发者能够构建能够与外部系统获取数据或执行操作的应用程序,并且在长上下文性能上优于GPT-3.5 Turbo。

GPT-4o mini在几个关键基准测试中表现卓越。

推理任务:GPT-4o mini在涉及文本和视觉的推理任务中优于其他小模型,在MMLU(文本智能和推理基准测试)中得分82.0%,相比之下,Gemini Flash得分为77.9%,Claude Haiku得分为73.8%。

数学和编程能力:GPT-4o mini在数学推理和编程任务中表现出色,优于市场上以前的小模型。在MGSM(数学推理测评)中,GPT-4o mini得分为87.0%,相比之下,Gemini Flash得分为75.5%,Claude Haiku得分为71.7%。在HumanEval(编程性能测评)中,GPT-4o mini得分为87.2%,相比之下,Gemini Flash得分为71.5%,Claude Haiku得分为75.9%。

多模态推理:GPT-4o mini在MMMU(多模态推理测评)中也表现出色,得分为59.4%,相比之下,Gemini Flash得分为56.1%,Claude Haiku得分为50.2%。

模型评估得分

作为我们模型开发过程的一部分,我们与一些受信任的合作伙伴合作,以更好地了解GPT-4o mini的用例和局限性。我们与Ramp和Superhuman等公司合作,这些公司发现GPT-4o mini在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务上,明显优于GPT-3.5 Turbo。

内置安全措施

安全性从一开始就内置在我们的模型中,并在开发过程的每一步得到加强。在预训练阶段,我们过滤掉不希望模型学习或输出的信息,如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。在后训练阶段,我们使用人类反馈强化学习(RLHF)等技术来调整模型的行为,以提高模型响应的准确性和可靠性。

GPT-4o mini具有与GPT-4o相同的内置安全缓解措施,我们根据《准备框架》进行了仔细评估,并符合我们的自愿承诺。70多位在社会心理学和虚假信息等领域的外部专家测试了GPT-4o,以识别潜在风险,我们已经解决了这些问题,并计划在即将发布的GPT-4o系统卡和准备得分卡中分享详细信息。这些专家评估的见解有助于提高GPT-4o和GPT-4o mini的安全性。

基于这些经验,我们的团队还使用新的技术提高了GPT-4o mini的安全性,这些技术基于我们的研究得出。API中的GPT-4o mini是第一个应用我们指令层次方法的模型,这有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这样可以使模型的响应更加可靠,并有助于在大规模应用中提高使用的安全性。

我们将继续监测GPT-4o mini的使用情况,并在发现新风险时改进模型的安全性。

可用性和定价

GPT-4o mini现已在助手API、聊天完成API和批处理API中作为文本和视觉模型提供。开发者支付每百万输入标记15美分和每百万输出标记60美分(大约相当于标准书籍的2500页)。我们计划在未来几天推出GPT-4o mini的微调功能。

在ChatGPT中,免费、Plus和团队用户将从今天起可以使用GPT-4o mini,取代GPT-3.5。企业用户也将从下周开始使用,这与我们让AI的好处惠及所有人的使命相一致。

未来展望

在过去的几年里,我们见证了AI智能的显著进步以及成本的大幅下降。例如,自2022年推出能力较弱的text-davinci-003以来,GPT-4o mini的每标记成本下降了99%。我们致力于继续沿着这条轨迹前进,在降低成本的同时增强模型的能力。

我们展望一个模型无缝集成到每个应用程序和每个网站的未来。GPT-4o mini正在为开发者更高效和更经济地构建和扩展强大的AI应用铺平道路。AI的未来正变得更加可及、可靠,并融入我们的日常数字体验中,我们很高兴继续引领这一道路。

阅读原文:GPT-4o mini: advancing cost-efficient intelligence

参考译文:[GPT-4o mini:推动高效智能的发展](

相关推荐
昨日之日20062 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_2 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover2 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川3 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃5 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力7 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20217 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧38 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽8 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_8 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习