2025 最新 AI 模型深度对比：ChatGPT、Claude、Gemini到底选谁？

原文作者：Peter Yang
原文链接：An Opinionated Guide on Which AI Model to Use in 2025

大家好！今天，我想分享一份关于你应该使用哪个 AI 模型的个人看法指南。

自去年我分享了我的 24 个顶级 AI 工具分级列表以来，AI 领域发生了翻天覆地的变化。现在有多个强大的 AI 模型在争夺你的注意力。

那么，哪个模型值得你投入时间和金钱呢？下面我们来详细分析一下。

ChatGPT：AI 模型中的瑞士军刀

如果你想要最好的多模态 AI 助手，ChatGPT 是你的不二之选。

ChatGPT 最擅长...

ChatGPT 非常适合处理各种日常琐碎任务，比如比较窗户报价

回答日常问题。 我每天都会问 ChatGPT 许多问题，而且从未遇到使用频率限制。例如，我正在更换家里的窗户，我让 ChatGPT "比较这两份 PDF 报价，告诉我哪个更划算。" 它给出了非常详尽的分析对比。
语音对话。 我喜欢先把一些背景信息粘贴到 ChatGPT，然后在散步或通勤时激活语音模式与它交谈。

专业提示：如果你不希望语音模式打断你，可以告诉它："请等我说完再回应。"

结合视觉和语音的实时摄像头。 在语音模式下，你可以激活手机摄像头，让 ChatGPT 看到你眼前的景象。我发现这对于和孩子们一起学习新事物非常有帮助。
数学和财务分析。 我曾让 ChatGPT 协助处理税务准备、RSU（限制性股票单位）规划等事务。它在数学方面的能力似乎优于其他模型。
对市场或技术主题进行深度研究。 我曾撰文提到深度研究 (Deep Research) 是 ChatGPT 最好的产品。其表现超越了 Grok、Perplexity 和 Gemini 的同类功能，而且现在每月只需 20 美元即可使用。

ChatGPT 不太擅长...

编辑写作或编写代码。 我发现 ChatGPT 的写作建议往往非常机械化（尽管 GPT 4.5 有所改善）。它也不是 AI 编程平台的首选模型。这项殊荣仍然属于...

Claude：写作者和程序员的首选

Claude 没有 ChatGPT 那么多花哨的功能，但它在写作和编码（这两项占我 AI 使用量的 80%）方面表现极为出色。

Claude 最擅长...

编辑你的文字。 将你最好的写作范例提供给 Claude，它能迅速学习并适应你的风格。它能够根据我未经修饰的语音笔记（通过 Superwhisper）生成初稿，这极大地节省了我的时间。

Claude 使用我的"编辑 newsletter"提示词效果非常好

"氛围编程" (Vibe coding)。 像 Bolt 和 Cursor 这样的 AI 编程平台选择 Claude 3.7 Sonnet 作为默认模型是有充分理由的。我一直在用它进行 "氛围编程" (vibe coding) 来开发游戏（例如，一个飞机模拟器、星球大战死星突袭和一个僵尸第一人称射击游戏），这个过程充满乐趣。

Claude 不太擅长...

多模态能力。 Claude 缺乏图像、语音和视频生成功能。不过，其新增的扩展思考模式 (extended thinking mode) 在推理能力上可与 OpenAI 最顶尖的模型相媲美。

Gemini：擅长处理长上下文和视频

Veo 在 AI 视频领域是当之无愧的佼佼者，我喜欢用它和我的孩子们一起制作小短片

Gemini 提供了目前所有 AI 模型中最长的上下文窗口，并且在视频摘要和生成方面表现惊艳。

Gemini 最擅长...

使用 Veo 制作视频。 Veo 的能力远超 OpenAI 的 Sora 模型。我和女儿喜欢用它来生成小短片，比如这个故事，讲述了一个女孩和一只仓鼠在金门大桥上失散的经历。
使用 Imagen 3 创建图像。 尽管 DALL-E 和 Midjourney 更受瞩目，但 Gemini 的 Imagen 3 往往能生成更连贯、更富艺术感的图像。我尤其欣赏它处理复杂场景和保持画面一致性的能力。
处理海量文档和长视频上传。 Gemini 拥有超过 200 万词的上下文窗口，能够同时处理整本书、多个文档，甚至可以分析上传的视频内容。

Gemini 是这份列表中唯一能处理视频上传的 AI 模型

Gemini 不太擅长...

个性化表达。 这个评价可能有些奇怪，但 Gemini 的回复通常过于简短和刻板（甚至比 ChatGPT 更明显）。我曾让它编辑我的博客文章和编写代码，但使用体验上总感觉不如 Claude 或 ChatGPT 那么顺畅。

Grok：最好用的免费（也最"放飞自我"）AI 模型

如果你不想每月支付 20 美元，Grok 是目前可用的最佳免费 AI 模型。它与 Perplexity 一样，能够提供最新的信息。

Grok 最擅长...

免费的深度研究、推理、图像生成和编码。 Grok 提供了免费版的深度研究（"DeepSearch"）、推理（"think"）、图像生成和编码功能，在免费 AI 模型中堪称顶级水准。我认为 Grok 的编码能力可与 Sonnet 3.7 相媲美，但它缺乏与主流 AI 代码生成工具的集成。
在 X (Twitter) 上查找信息。 Grok 是唯一能够访问 X (Twitter) 实时动态的模型。
"放飞自我"的语音对话。 Grok 的语音模式着实令人大开眼界。不妨试试它的性感或"放飞自我"语音模式，但最好避开家人。我不知道他们为何要加入这些语音选项，但它们确实非常......特别。

Grok 不太擅长...

编辑写作。 Grok 在编辑写作方面表现糟糕，因为它默认的语气是讽刺和诙谐的，坦率地说，这并不适用于任何严肃的写作任务。

Perplexity：快速研究、旅行规划等场景的利器

Perplexity 为我的日本之行提供了个性化的餐厅推荐

Perplexity 本身并不预训练自己的 AI 模型，但我仍将其纳入讨论，因为其 Pro 版本每月同样收费 20 美元，并且它已经替代了我的谷歌搜索。

Perplexity 最擅长...

快速研究。 需要快速了解某个主题？Perplexity 能从网络上搜集信息，并以清晰、简洁的摘要形式呈现，同时附带直接的来源链接。我常用它来查证事实和获取快速概览。
旅行规划和本地活动。 Perplexity 在制定详细的旅行计划和搜寻当地活动方面表现出人意料地出色。最近，它就帮我规划了即将到来的日本之旅。

Perplexity 不太擅长...

深度研究。 根据我的使用体验，ChatGPT 和 Grok 的深度研究功能会参考比 Perplexity 更广泛、更全面的信息来源。

额外彩蛋：DeepSeek 最适合用来找乐子

还记得当初来自中国的 DeepSeek 引发的热烈讨论吗？我至今仍然喜欢查看它那未经修饰的"思考链条"，从中获得不少乐趣。

例如，看它如何尝试理解我的"老爸冷笑话"(dad jokes)，常常让我忍俊不禁：

如果你想和家人或团队成员轻松一下，不妨试试它。

那么，你的 20 美元应该花在哪个模型上？

我是这样考虑的：

如果我只有 20 美元预算，我会选择 Claude。 编辑写作和（在较小程度上）编码占据了我 AI 使用场景的 80%。Claude 是帮助我完成日常工作的得力助手。
如果我还有额外的 20 美元，我会选择 ChatGPT。 我非常喜欢它的语音模式、推理能力以及深度研究功能。

欢迎在回复中分享你的看法，看看你是否同意我的选择 :)