An Early Evaluation of GPT-4V(ision)

本文是LLM系列文章，针对《An Early Evaluation of GPT-4V(ision)》的翻译。

GPT-4V的早期评估

摘要
[1 引言](#1 引言)
[2 视觉理解](#2 视觉理解)
[3 语言理解](#3 语言理解)
[4 视觉谜题解决](#4 视觉谜题解决)
[5 对其他模态的理解](#5 对其他模态的理解)
[6 结论](#6 结论)

摘要

在本文中，我们评估了GPT-4V的不同能力，包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估GPT-4V的性能，我们手动构建656个测试实例，并仔细评估GPT-4V的结果。研究结果的亮点如下：（1）GPT-4V在以英语视觉为中心的基准测试中表现出令人印象深刻的性能，但无法识别图像中的简单中文文本；（2） GPT-4V在回答与性别、种族和年龄等敏感特征相关的问题时表现出不一致的拒绝行为；（3） GPT-4V在包括一般语言理解基准和视觉常识知识评估基准在内的语言理解任务上获得比GPT-4（API）更差的结果；（4）小样本提示可以提高GPT-4V在视觉理解和语言理解方面的表现；（5） GPT-4V努力寻找两张相似图像之间的细微差别，并解决简单的数学图片难题；（6）GPT-4V在与图像类似的模式（如视频和热）的任务上表现出了非凡的性能。我们的实验结果揭示了GPT-4V的能力和局限性，我们希望我们的论文能为GPT-4V的应用和研究提供一些见解。

1 引言

2 视觉理解

3 语言理解

4 视觉谜题解决

5 对其他模态的理解

6 结论

在本文中，我们定量研究了GPT-4V在各种任务中的性能。根据研究结果，我们发现GPT-4V虽然在标准的以英语为中心的视觉基准上取得了很高的性能，但仍然不能进行中文文本识别。这一观察结果表明，有必要对中国基准进行进一步深入评估，以衡量GPT-4V的能力。我们还观察到，GPT-4V即使具有很强的视觉理解能力和数学问题解决能力，也无法解决简单的数学图片谜题。原因可能是GPT-4V没有很好地推广到这个领域。另一个问题是，GPT-4V在回答与身份和性别、种族和年龄等敏感特征有关的问题时表现出不一致的拒绝行为。这个问题可能会导致GPT-4V的性能明显下降，在未来的研究中应该小心处理。

至于局限性，我们承认GPT4V的性能可能会因采用不同的提示方法而有所不同。例如，更具体的指令和更好的示例将提高其性能。我们希望在未来的工作中探索利用其他高级提示，如思维链提示。我们也承认，每个任务的更多测试实例可以使估计结果更准确，但由于劳动力成本高，我们只对部分实例进行了采样。

尽管如此，这还是首次尝试定量研究GPT-4V在各种任务中的性能。在我们的研究中，我们揭示了GPT-4V的优势和局限性。我们希望我们的研究能够为未来的研究和应用提供见解。