引领小模型潮流!OpenAI发布功能强大且成本低的GPT-4o mini

GPT-4o mini的成本比GPT-3.5 Turbo低了超过60%,其聊天表现优于Google的Gemini Flash和Anthropic的Claude Haiku。该模型从周四开始对ChatGPT的免费用户、ChatGPT Plus用户和团队订阅用户开放,并将在下周向企业用户开放。OpenAI计划未来将图像、视频和音频功能整合到该模型中。

背景:光辉AI交流-免费问答学习4o-mini

OpenAI在美东时间周四推出了"GPT-4o mini",加入了"小而精"AI模型的竞争,称其为"功能最强、成本较低的模型",并计划未来整合图像、视频和音频。

比GPT-3.5 Turbo便宜超过60%,聊天表现优于竞品

公司表示,GPT-4o mini从周四起向ChatGPT的免费用户、ChatGPT Plus和团队订阅用户开放,并将在下周向企业用户开放。GPT-4o mini将替代ChatGPT中的旧模型GPT-3.5 Turbo。OpenAI表示,GPT-4o mini的成本为每百万输入标记(token)15美分和每百万输出标记60美分,比GPT-3.5 Turbo便宜超过60%。

公司还指出,新模型在聊天偏好上表现优于GPT-4,并在大规模多任务语言理解(MMLU)测试中获得82%的得分。媒体报道,MMLU是一种用于评估语言模型能力的基准测试。更高的MMLU得分表明它在各种领域中的语言理解和使用能力更强,增强了其实际应用价值。

根据OpenAI的数据,GPT-4o mini模型的得分为82%,比Google的Gemini Flash(77.9%)和Anthropic的Claude Haiku(73.8%)得分更高。

在更大模型中,GPT-3.5在该测试中的得分为70%,GPT-4o得分为88.7%,而Google声称其Gemini Ultra取得了90%的最高得分。

分析认为,较小的语言模型需要较少的计算能力,使其成为资源有限的公司部署生成式AI的更实惠选择。

此外,这款新模型还将在API中支持文本和视觉功能,OpenAI表示,它将很快处理多模态输入和输出,如视频和音频。这些功能可能使其像更强大的虚拟助手,能够理解旅行行程并提出建议。目前,该模型主要用于简单任务。

"小而精"AI模型竞争激烈,OpenAI最后入局

媒体报道,OpenAI的估值已超过800亿美元,尽管在生成式AI市场占据领先地位,但面临越来越大的竞争压力。OpenAI需要找到盈利方式,因为在处理器和基础设施上花费了大量资金来构建和训练模型。

许多公司无法负担大型、昂贵的模型,因此轻量且廉价的模型可能更受欢迎。此前,许多开发人员会选择Claude 3 Haiku或Gemini 1.5 Flash,而不是支付运行最强大模型的高昂计算成本。例如,一个较小的模型可能最适合自动化处理大量基础任务,而较大的模型则处理更复杂的工作。一些开发人员可能希望在一个应用程序中同时使用这两种模型。

OpenAI的API产品负责人Olivier Godement在接受采访时解释了为何公司未能更早推出"小而精"的AI模型,他说,这纯粹是"优先级"的问题,因为公司专注于创建更大、更好的模型,如GPT-4,这需要大量人力和计算资源。随着时间推移,OpenAI注意到开发人员越来越渴望使用较小的模型,因此公司决定现在是开发GPT-4o Mini的时机。

"我们的使命是开发最前沿技术,构建最强大、最有用的应用程序,我们希望继续推动技术进步,"Olivier Godement在接受采访时说。"但我们也希望拥有最好的小模型,我认为它会非常受欢迎。"

"GPT-4o Mini真正体现了OpenAI让AI更加普及的使命。如果我们希望AI惠及世界的每一个角落、每一个行业、每一个应用,我们必须让AI更加实惠。"Olivier Godement对媒体表示。

GPT-4o mini能帮助员工专注

Godement表示,过去一周内,一些开发人员已经在试用该模型。

OpenAI让金融科技初创公司Ramp测试了该模型,使用GPT-4o Mini构建了一个提取收据上费用数据的工具。用户可以上传收据照片,模型会为他们整理数据。电子邮件客户端Superhuman也测试了GPT-4o Mini,并用它创建了一个自动建议邮件回复的功能。

最初,GPT-4o mini将能够处理和生成文本和图像。最终版本完成后,OpenAI表示它将能够处理其他类型的内容。

OpenAI还表示,GPT-4o mini是公司首个使用新安全策略"指令层级"的AI模型。这种方法旨在优先处理某些指令,如来自公司的指令,以防止工具被滥用。

分析认为,GPT-4o mini模型是OpenAI致力于"多模态性"的一部分,即提供广泛类型的AI生成媒体(如文本、图像、音频和视频)在一个工具中。

去年,OpenAI首席运营官Brad Lightcap告诉媒体:

"世界是多模态的。如果你考虑我们作为人类处理和参与世界的方式,我们看见东西,听到东西,说话------世界不仅仅是文本。因此,对我们来说,只有文本和代码作为单一模态、单一接口,感觉总是不完整的,因为这些模型的强大能力和它们能做的事情远远不止于此。"

相关推荐
Komorebi.py3 分钟前
【Linux】-学习笔记05
linux·笔记·学习
不去幼儿园6 分钟前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习
想成为高手49912 分钟前
生成式AI在教育技术中的应用:变革与创新
人工智能·aigc
YSGZJJ1 小时前
股指期货的套保策略如何精准选择和规避风险?
人工智能·区块链
无脑敲代码,bug漫天飞1 小时前
COR 损失函数
人工智能·机器学习
HPC_fac130520678162 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
小陈phd5 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao6 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
朝九晚五ฺ8 小时前
【Linux探索学习】第十四弹——进程优先级:深入理解操作系统中的进程优先级
linux·运维·学习
猫爪笔记9 小时前
前端:HTML (学习笔记)【1】
前端·笔记·学习·html