AI 语言模型产业的投资困境与发展困境分析

https://benn.substack.com/p/do-ai-companies-work

巨额投资与成本困境

大型语言模型(LLM)的开发成本惊人。根据报道,OpenAI 正在筹集 65 亿美元资金,每年约消耗 70 亿美元用于研究、开发新的 AI 服务和扩充团队。Anthropic 预计今年将投入 27 亿美元,而 Facebook 的投资规模更大。

虽然芯片性能可能提升、计算成本可能下降,摩尔定律仍在发挥作用,但模型优化的难度却在不断提高。这就像攀登珠穰:越往上走,空气越稀薄,每一步都比前一步更加艰难(AGI 可能会改变这种情况)。即使基础计算成本降低,但收益递减效应明显。2024 年要构建更好的模型,需要比 2023 年投入更多更复杂的计算资源。

市场竞争与价值衰减

尽管成本高昂,业界仍在持续开发新模型。人们相信 LLM 是下一个技术淘金热,最优秀的模型开发商将为员工和投资者带来巨额回报。这种追求更快、更高、更强的人性驱动力难以抗拒。

然而,旧模型的价值衰减速度惊人。用户可以轻易地从 GPT-3 切换到 GPT-4,仅需在 ChatGPT 中更改一个下拉选项。如果竞争对手推出更好的模型,用户只需修改几行代码就能完成迁移。要持续销售 LLM,就必须始终保持领先地位。

即使行业停止开发新模型,或者技术发展遇到瓶颈,旧模型的价值仍会快速衰减。开源模型如 Llama 和 Mistral 的能力与专有模型的差距并不大,如果专有模型停止进步,开源模型很快就能追赶上来。

产业困境与战略选择

对于 OpenAI、Anthropic 等 AI 厂商来说,他们面临两个选择:一是投入巨资保持市场领先地位,但这极其冒险,因为模型开发成本会持续上升,优秀员工可能离职,而且不能把业务建立在永远保持技术突破的基础上。技术优势很少能成为持久的护城河。第二个选择似乎只能是更加努力地实现第一个选择。

与云服务提供商的对比

18 个月前,有观点认为基础 LLM 供应商可能成为下一代云服务提供商。表面上看,这个类比似乎合理:两者都需要大量资金支持,都可能成为全球计算基础设施的重要组成部分,市场规模都可能达到数千亿甚至万亿美元。

但有一个重要区别:云服务提供商不会在短期内被取代。Azure 无需担心几位高管离职后在 18 个月内建立全球数据中心网络。AWS 虽然是互联网企业,但其竞争优势建立在物理世界中。可口可乐也是如此:核心配方固然重要,但创业公司无法在三个月内建立工厂、配送中心和零售网络。

AI 厂商的脆弱性

相比之下,AI 供应商的处境不同。虽然 OpenAI 需要大量计算资源,但这些都是租用的(来自微软、AWS 或 GCP)。只要有足够资金,任何人都能获取相同的资源。完全可以想象,一小组资深研究人员离开 OpenAI,筹集资金租用计算资源,在几个月内就能对 OpenAI 的核心业务构成威胁。

AWS 在数据中心上的投资构成了持久的防御,而 OpenAI 在开发 GPT 旧版本上的投资却不能,因为更好的版本已经在 Github 上免费提供。从某种意义上说,每个 LLM 供应商都随时可能在 18 个月内失去竞争力。(这对 AI 应用更为明显,如 Copilot、Poolside、Devin 和 Cursor 的更迭)

护城河之困

那么,LLM 供应商的护城河在哪里?是品牌?惯性?更好的应用生态?还是持续投入巨资保持技术领先?这个问题目前还没有明确答案。但 AI 公司似乎是市场错误地将软件开发成本视为一次性投资而非必要持续支出的极端案例。

对于谷歌、微软这样的巨头,以及已经成为 AI 代名词的 OpenAI 来说,这种持续投入可能是可行的。但对于尚未产生可观收入的小公司来说,即使通过大规模融资暂时领先,也很难持续保持优势。他们要么需要永续筹集巨额资金(市场需要保持非理性才能维持企业的生存),要么必须每年创造数十亿美元的收入,这是一个极高的生存门槛。

在这个市场中,时机可能是关键:当炒作退潮时,企业将无法获得如此规模的融资。最终的赢家不是跑得最快或者率先到达终点的人,而是在市场认定比赛结束时恰好领先的那个。

相关推荐
金井PRATHAMA23 分钟前
框架系统的多维赋能——论其对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
面壁的熊猫25 分钟前
目标检测概述
人工智能·目标检测·计算机视觉
Learn Beyond Limits30 分钟前
Using per-item Features|使用每项特征
人工智能·python·神经网络·算法·机器学习·ai·吴恩达
石臻臻的杂货铺38 分钟前
如何让AI实现自动化 —— PlayWright MCP 实测
运维·人工智能·自动化
之墨_39 分钟前
【大语言模型】—— Transformer的QKV及多头注意力机制图解解析
人工智能·语言模型·transformer
我的offer在哪里1 小时前
九月技术奇点观察:当量子算力与 AI 认知同时突破临界点
人工智能·量子计算
文火冰糖的硅基工坊1 小时前
[创业之路-682]:实即虚,虚即实。真正的技术壁垒,藏在光路之外、电路之下、代码之中。
人工智能·算法·系统架构·制造·创业·产业链
nju_spy1 小时前
大模型面经(一) Prompt + RAG + 微调
人工智能·面试·lora·大模型·rag·提示词工程·peft微调
学技术的大胜嗷1 小时前
使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性
人工智能·深度学习·图像生成
玩转AGI1 小时前
【必收藏】12-Factor Agents:让大模型Agent从能跑起来到能用起来的企业级设计指南
人工智能·程序员·llm