官方测评！OpenAI vs. Gemini vs. Claude！谁才是你的最佳AI编程模型选择？

大家好，欢迎来到程序视点!我是你们的老朋友，小二！

前言

现在的AI大模型，发展迅速，各种模型层出不穷！在编程上，主要的模型还是OpenAI、Google Gemini 和 Anthropic Claude比较出色！那么，哪种型号最适合您呢？您只需要一个，还是应该混合搭配用于不同的工作？

答案并不总是显而易见的！更不一定是大家一直追寻的新模型！ JetBrains AI Assistant 已经支持了上述这些模型啦~ 这意味着 AI Assistant 现在适应性更强。它结合了不同 AI 模型的优势，从大型模型的深度推理到紧凑型模型的速度，甚至本地模型的隐私。我们应该怎么选？这里将分解 AI Assistant 提供支持的模型，解释它们最擅长什么以及如何充分利用它们。

测评指标

首先，让我们定义有助于我们比较模型的指标。也就是我们参考的标准！

Speed （速度）

模型生成响应的速度有多快？如果一个模型比另一个模型慢，那不一定是坏事。某些模型需要额外的时间，因为它们使用基于推理的方法，这可能会导致更精确的答案。想一想大家用的 Claude 3.7 Sonnet,以及大家追的 GPT-4.5根据您的任务需求，此指标可能至关重要 - 例如，如果您绝对需要快速响应。在这篇文中，我们分享了以每秒令牌数（TPS）计算的速度的内部数据。

幻觉率

**AI 很强大，但并不完美。某些模型更倾向于生成不正确或误导性的答案。**幻觉发生率越低越好。在这篇博文中，我们依靠 GitHub 的数据来计算幻觉率。

Context window size （上下文窗口大小）

这定义模型一次可以处理多少代码。 上下文窗口越大，AI 一次"记住"的就越多，这对于处理复杂项目至关重要。

Coding performance （编码性能）

此指标突出显示模型处理编码任务的能力。几个可靠的基准可以帮助我们对 LLMs 进行评估：

HumanEval+ 衡量在LLM一定次数的尝试内解决 Python 编码问题的能力。以 100 为最大值，高分意味着模型可靠并且可以一次性生成正确的代码。
ChatBot Arena 根据真实用户反馈进行排名 LLMs，使其成为当今最具活力和实用性的 AI 基准测试之一。如果您在此处看到更高的数字，则表示该模型在基于选票的比较中始终优于其他模型。
Aider 的多语言基准测试。通过检查解决方案是否正确运行来评估使用多种编程语言编写和修复代码的能力 LLMs。高分表示在LLM以多种编程语言进行编码时非常准确和可靠，这意味着它是各种开发任务的有力选择。

JetBrains AI Assistant 中 LLMs在编码任务里的指标比较

上面我们已经定义了指标，让我们看看 AI Assistant LLMs 支持的指标如何比较。

最好的可用的 LLMs 产品的特性

不同的 LLMs 非常多且发展迅速，没有一个模型在各个方面都表现出色。根据上面的基准，以下是各个关键类别的领导者：

Hallucination rate（幻觉率）: Gemini 2.0 Flash
Speed（速度）: GPT-4o-mini、Gemini 1.5 Flash 和 Gemini 2.0 Flash
通用智能（非推理模型）：GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku 和 Gemini 1.5 Pro
通用智能（推理模型）: Claude 3.7 Sonnet, o1, o1-mini 和 o3-mini

本地模型

如果您需要 AI Assistant 离线工作，或者希望避免与 LLM API 提供商共享您的代码，您也可以使用此选项！AI Assistant 支持本地模型，通过 ollama 和 LM Studio 提供。目前最强大的模型是 Qwen-2.5-Coder 和 Deepseek R1，但你可以使用 ollama 集合中的任何模型，只要足够小，便可以适应你的硬件。

总结

使用 JetBrains AI Assistant，并通过访问 multiple LLMs，可以在 JetBrains IDE 中为您的上下文提供正确的模型。有了上面的介绍，大家应该知道怎么选了吧？**没有放之四海而皆准的模型，但你有 JetBrains AI Assistant，您总能轻松找到最适合这项工作的模型。

如果你也需要激活 JetBrains AI Assistant，可以通过我们获取最实惠的激活！

祝大家搬砖愉快~~

写在最后

我们始终致力于分享实用的工具和内容，提供最实惠的价格、最优质的服务。

【程序视点】助力打工人减负，从来不是说说而已！

后续小二哥会继续详细分享更多实用的工具和功能。