深入分析GPT-4o与其他顶级语言模型ChatGPT、Gemini的性能表现

深入分析GPT-4o与其他顶级语言模型ChatGPT、Gemini的性能表现

OpenAI最近发布的GPT-4o标志着AI语言模型互动方式的新纪元。在现场演示中,尽管出现了一些小插曲,但支持与ChatGPT进行实时互动和会话中断的功能令人印象深刻。最重要的是,演示结束后,OpenAI立即开放了GPT-4o的API访问权限。在本文中,我将对GPT-4o、GPT-4以及Google的Gemini和Unicorn模型进行独立的性能分析,测量它们在英语理解方面的分类能力。

GPT-4o的革新之处

GPT-4o作为一种全新的全能模型,能够无缝理解和处理文本、音频和视频。OpenAI的重点似乎转向了将GPT-4级别的智能普及到大众,使即使是免费用户也能获得GPT-4级别的语言模型智能体验。GPT-4o还提升了在超过50种语言中的质量和速度,承诺提供更具包容性和全球化的AI体验,同时价格更低。此外,付费订阅用户将获得比非付费用户多五倍的使用容量。OpenAI还计划推出桌面版ChatGPT,以便大众可以在音频、视觉和文本界面之间进行实时推理。

GPT-4o API的使用方法

新的GPT-4o模型遵循现有的OpenAI聊天完成API,确保向后兼容性和简便使用。用户可以通过API轻松集成和利用GPT-4o的强大功能。

py 复制代码
from openai import OpenAI


OPENAI_API_KEY = "<your-api-key>"


def openai_chat_resolve(response: dict, strip_tokens = None) -> str:
    if strip_tokens is None:
        strip_tokens = []
    if response and response.choices and len(response.choices) > 0:
        content = response.choices[0].message.content.strip()
        if content is not None or content != '':
            if strip_tokens:
                for token in strip_tokens:
                    content = content.replace(token, '')
            return content
    raise Exception(f'Cannot resolve response: {response}')


def openai_chat_request(prompt: str, model_name: str, temperature=0.0):
    message = {'role': 'user', 'content': prompt}
    client = OpenAI(api_key=OPENAI_API_KEY)
    return client.chat.completions.create(
        model=model_name,
        messages=[message],
        temperature=temperature,
    )


response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)

在ChatGPT中也可以使用GPT-4o

官方评估

OpenAI的博客文章中包含了已知数据集(如MMLU和HumanEval)的评估分数。根据这些评估,GPT-4o的性能在这一领域可以归类为最先进的,这一表现非常令人期待,尤其考虑到新模型更加便宜和快速。然而,许多模型声称在已知数据集上具有最先进的语言性能,但实际上,这些模型可能在这些公开数据集上进行了部分训练(或过拟合),导致排行榜上的分数不真实。因此,使用不太知名的数据集进行独立分析是非常重要的。

评估的模型

对以下模型进行评估:

  • GPT-4o: gpt-4o-2024-05-13
  • GPT-4: gpt-4-0613
  • GPT-4-Turbo: gpt-4-turbo-2024-04-09
  • Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
  • Gemini 1.0: gemini-1.0-pro-002
  • Palm 2 Unicorn: text-unicorn@001

任务是让这些语言模型将数据集中的每个句子与正确的主题匹配,从而计算每个模型的准确率和错误率。由于模型大多分类正确,我们绘制了各模型的错误率条形图。记住,较低的错误率表明模型性能更好。

错误率横向条形图

从图表中可以看出,GPT-4o的错误率最低,仅有2个错误。Palm 2 Unicorn、GPT-4和Gemini 1.5紧随其后,展示了它们的强大性能。值得注意的是,GPT-4 Turbo的表现与GPT-4-0613相似。有关更多信息,请查看OpenAI的模型页面。最后,Gemini 1.0的表现落后,这是可以预期的,考虑到其价格范围。

多语言能力

最近的研究成果表明,GPT-4o与其他LLM(如Claude Opus和Gemini 1.5)的多语言能力相比,要更强大。

结论

通过使用独特的英语数据集进行的分析揭示了这些先进语言模型的最先进能力。GPT-4o作为OpenAI最新的产品,以最低的错误率在测试模型中脱颖而出,证实了OpenAI关于其性能的声明。AI社区和用户必须继续使用多样化的数据集进行独立评估,这有助于提供模型实际有效性更清晰的图景,而不仅仅是标准化基准测试所显示的结果。

总的来说,GPT-4o的表现展示了AI语言模型发展的新高度,未来我们期待更多的技术创新和改进。

相关推荐
昨日之日200644 分钟前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_1 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover1 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力6 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20216 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧37 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽7 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_7 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习