GPT-5 要来了：抢先了解其创新突破

Microsoft 的工程师计划于 2024 年 11 月在 Azure 上部署 Orion (GPT-5)。虽然这一版本不会向公众开放，但其上线被视为人工智能领域的一个重要里程碑，并将产生深远的影响。

文章目录

- [GPT-5 真的要来了](#GPT-5 真的要来了)
- [GPT-4 的局限性](#GPT-4 的局限性)
- [GPT-5 的创新突破与遗留挑战](#GPT-5 的创新突破与遗留挑战)
- - [GPT-5 预期的改进](#GPT-5 预期的改进)
  - [GPT-5 遗留的挑战](#GPT-5 遗留的挑战)
- 未来的发展方向

GPT-5 真的要来了

OpenAI 在 2023 年 3 月左右宣布了 GPT-5 的开发计划，这一消息引起了广泛关注。一些知名人士签署了暂停开发的请愿书，其中包括 AI 领域的先驱 Yoshua Bengio（图灵奖得主）、AI 研究人员 Stuart Russell 和 Gary Marcus、Apple 联合创始人 Steve Wozniak、前美国总统候选人 Andrew Yang，以及原子科学家公报主席 Rachel Bronson（反对可能终结人类的核战争）。特斯拉、Twitter 和 SpaceX 的 CEO 及 OpenAI 的前联合创始人 Elon Musk 也参与了签署，Stability AI 的 CEO Emad Mostaque 亦在其中。

虽然 GPT-4 在 AI 能力上取得了显著进步，但仍存在一些局限性。它并未导致大规模的失业或预示人类的灭亡，因此可能表明签署请愿书的人存在误解。

自从 GPT-4 发布以来已经过去一年多，对于代号为 Orion 的 GPT-5 的担忧逐渐减弱。现在，Orion 终于准备向全球推出。与以往不同的是，它不会通过 ChatGPT 向公众发布。OpenAI 计划首先向与其密切合作的公司提供早期访问权限，以便这些公司开发自己的产品和功能。虽然在内部，Orion 被视为 GPT-4 的后继者，但尚未确定是否会正式命名为 GPT-5。

有报告指出，GPT-5 的能力将提升 100 倍，但具体的"能力"细节尚不明确。然而，它仍将面临一些无法克服的限制。

首先，让我们探讨最新 GPT 版本中持续存在的问题。

GPT-4 的局限性

语言限制：尽管 GPT-4o 在多语言能力上有了提升，但在处理非英语语言时，尤其是那些高质量数据匮乏的语言时，仍然存在挑战，导致其响应和翻译效果不佳。
数据质量问题：一个突出的担忧是训练数据的质量不尽如人意，特别是在中文等语言中，这可能导致模型产生不准确或虚构的回应，因为低质量内容广泛存在。
事实准确性：即便是在明确的提示下，模型有时也可能提供错误或误导性的信息，这引发了对其可信度和可靠性的质疑。
部分指令遵循：当用户给出冗长的指令集时，即使这些指令都很清晰简单，模型可能只完成部分请求。对于 AI 来说，模型可能会完成它从训练中识别的部分，但可能会跳过或简化其他部分。在收到反馈后，模型可能会修正遗漏的部分，但同时可能忽略之前正确完成的部分。
资源消耗巨大：训练和运行 GPT-4o 这样的大型语言模型需要大量计算资源，这不仅限制了模型的可及性，还因为高能耗引发了环境方面的担忧。
社会偏见：GPT-4o 可能无意中反映出训练数据中的偏见，导致产生不公平甚至歧视性的输出，这可能影响公众观点并加剧现有社会问题。
拟人化倾向：使用"推理"和"理解"等术语来描述 AI 模型可能会导致不切实际的期望和误解。虽然这可以帮助消费者更好地理解 LLMs，但必须认识到这些模型实际上是通过模式预测文字，而非像人类一样真正理解或感知提示。
红队测试不足：目前由 70 多名专家组成的团队可能不足以充分应对潜在用户的多样化需求和技术相关的潜在风险。并且一直有传闻 OpenAI 的测试和安全团队对 Altman 激进的产品发布策略不满。
缺乏透明度：OpenAI 没有提供关于产品的充分信息，比如可持续性指标、即将推出的功能、发布日期或产品路线图。
高级模型访问受限：可能只有少数用户能够使用模型最强大的版本，或者由于高昂的费用，许多用户可能无力负担。

GPT-5 的创新突破与遗留挑战

OpenAI 对于 GPT-5 的计划充满神秘，目前关于其发布日期和功能的报道众说纷纭。（有趣的是，这种不一致性对一些人来说反而更具吸引力）尽管人们期望它能够解决 GPT-4o 的一些缺陷，但某些根本性挑战可能依然存在。

GPT-5 预期的改进

增强事实核查能力：GPT-5 预计将提升事实核查功能。当前像 GPT-4 这样的模型偶尔会产生不准确或虚构的信息，GPT-5 旨在通过引用更可靠的数据源和优化其响应验证过程来减少这些错误。
提升视频处理能力：GPT-4 在视频内容的处理与理解上存在局限，限制了其在多媒体应用中的表现。而 Orion 有望显著提升视频理解和处理能力，可能应用于实时视频分析、摘要甚至生成。
增强上下文记忆：GPT-5 预计将具备更强的记忆能力，可以在长时间对话中保留更多上下文信息。这将有助于创建更连贯、具有上下文意识的互动，使模型能够记住对话早期的细节并在后续交流中灵活应用。
先进的多模态能力：虽然 GPT-4 引入了基本的多模态功能，能够处理文本和图像，而 GPT-5 可能会在此基础上扩展，实现对文本、图像、视频，甚至音频的多种输入形式的无缝集成。
伦理与偏见控制：未来像 GPT-5 这样的模型预计将引入更复杂的机制，以减少偏见并更好地处理伦理复杂的情境。
为企业提供定制和微调功能：GPT-5 可能允许企业更精细地控制模型微调，以满足其特定需求。OpenAI 或将提供更高级的 API 和工具，帮助企业定制语言生成、调整语气，并优化模型响应，从而在客户服务、营销等多个领域实现更广泛的应用。
改进实时语言翻译：GPT-5 预计将增强 GPT-4 的语言翻译能力，目标是在更多语言和方言之间实现实时、上下文准确的翻译。

GPT-5 遗留的挑战

我认为如下问题依然会遗留在 GPT-5 中。

数据质量问题：模型依赖于大规模的互联网数据，这些数据往往带有偏见和不准确性，这一直是个问题。
非英语语言的挑战：尽管在提升非英语回应质量方面做出了努力，由于缺乏高质量的训练数据和熟练的培训师，仍会存在一些限制。
指令部分遵循：即便是简单明了的指令，如果包含太多限制条件，对于大型语言模型 (LLM) 来说也可能显得复杂。因为它们倾向于模式匹配而非完全理解提示。面对多重限制，LLM 可能只遵循最接近的模式，常常忽视某些指令。这个问题短期内难以解决。
资源消耗巨大：支撑 GPT 模型的 Transformer 架构需要大量资源，这种情况可能会持续。这可能带来环境隐患，例如，如果新的数据中心依赖核能，可能加速全球变暖或增加核废料风险。
社会偏见的延续：模型的训练数据主要来自互联网，如果不优先考虑高质量和无偏见的来源，可能会加剧和延续社会偏见。这突显了 OpenAI 在数据收集方面的局限性，也表明需要更加细致地挑选训练数据。

未来的发展方向

为了解决这些限制，并确保 AI 的负责任发展，我们可能需要采取以下措施：

新型语言模型：需要开发一种新的语言模型，它应当资源高效，能够在不依赖大量数据的情况下有效学习，适应语言的各种应用场景和细微差别。
高质量数据：为了减少偏见和不准确性，关键在于投资于多元化和高质量数据集的创建与管理。这包括精心选择数据来源、消除偏见，并确保数据的完整性。
提高透明度和责任意识：OpenAI 和其他 AI 开发者应优先考虑研发过程的透明度。通过分享模型的局限性、偏见和潜在影响的信息，可以增进公众信任，并促进关于 AI 在社会中作用的深入讨论。
用户教育：通过教育公众，使其了解 AI 的能力和限制，可以帮助管理期望，避免误用。
监管监督：政府和国际组织在监管 AI 开发和部署方面发挥着重要作用。通过制定合适的法规，他们能够在创新与安全之间取得平衡。这些法规应关注数据隐私、算法公平性和责任追究等问题。

为了实现平衡的发展，我们必须确保 AI 的发展是协作的，而不是被少数人垄断。公平竞争和透明度对于推动进步至关重要，而不是依赖于营销炒作。通过坦诚讨论挑战，我们可以利用 AI 的力量为人类带来福祉。