大模型 Scaling Law 的本质是工业化思维,Token 工厂,Token 生意

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/


1. Scaling Law 的本质是工业化思维

我认为很多人对 Scaling Law 的理解还不够深入,他们仍然只是简单地认为:效果与参数规模成等比增长,目前的瓶颈应该是数据问题。但这种思考方式是不全面的。为什么 Scaling Law 被称为 "法则" 呢?显然,它不仅仅适用于大模型领域。自人类进入工业社会以来,科技的进步主要依靠 Scaling Law,换句话说,就是工业规模化 。工业规模化推动了科技的进步。工业规模化是一体两面的:一方面,它通过降低成本来实现;另一方面,它需要足够的消费量来支撑。因此,本质上是依靠海量的需求来驱动技术持续的迭代和进步

对于 OpenAI 来说,当前的瓶颈可能不主要在于数据。由于他们较早开始研究,所以拥有比大多数人更优质的数据。此外,尽管现有模型已经非常强大,半合成数据的利用率仍未达到最大 ,更不用说未来的全合成数据以及由于大模型推动而积累的更多物理世界数据了。显然,他们的瓶颈主要在于算力 而非数据。以年初的 Sora 为例,它延续了大语言模型的发展方式,依然遵循 Scaling Law,即海量数据加大规模参数 。然而,其应用受限于当前算力的高昂成本。此外,应用市场的不成熟也是一个重大问题。这意味着工业规模化的两个关键要素尚未形成有效循环,这或许是 OpenAI 目前无法推出更强大模型的根本原因。(类似的,汽车的发动机/引擎固然复杂且价值高昂,然而真正创造利润的是完整的汽车产品,尤其是在当前智能驾驶技术日益重要的背景下。)

你可以看到,OpenAI 正在不断地发展上层应用生态,并免费提供其最优秀的模型,其本质目的是提升消费端的需求,从而推动其内部大模型的工业规模化。这种焦虑在当前也是普遍存在的。以 Sora 为例,就算它被公开使用,但大部分用户可能仅仅是尝鲜后很快便较少使用。这导致市场规模不足,难以实现工业规模化,进而无法解决商业化问题。

2. 数据红利远未被充分利用

接下来,我将进一步探讨合成数据的相关问题。OpenAI 在半合成数据方面的潜力尚未完全挖掘。通过向合成数据中添加少量物理世界的元素 ,可以显著提升数据的效果。例如,利用多模态大模型分析视频,可以更深入地理解物理世界。从视频中抽取大量文本数据、语音和监控信息等,尽管大部分监控数据未被保留。这些数据经过大模型处理并添加了物理世界的微量元素,因此成为了高质量的半合成数据。其他公司在这方面仍面临挑战,因为他们的模型尚未达到 OpenAI 的水平,制作这种半合成数据对他们来说较为困难。

半合成数据(Semi-Synthetic Dataset)是指在真实数据和合成数据之间的一种数据形式。它通常是通过对真实数据进行一定程度的修改或混合合成数据来创建的,目的是增加数据的多样性,改善模型的泛化能力,同时避免完全依赖真实数据可能带来的成本和隐私问题。半合成数据可以用来补充真实数据的不足,特别是在数据稀缺或难以获取的情况下。此外,半合成数据还可以帮助保护个人隐私,因为它不直接使用真实的个人数据。然而,半合成数据也面临着挑战,例如如何确保合成数据的质量和真实性,以及如何平衡合成数据与真实数据的比例,以达到最佳的训练效果。

半合成数据对于多模态大模型性能的提升具有重要作用。它不仅能够丰富训练数据集,提高模型的泛化能力,还能帮助模型更好地理解和处理复杂的多模态信息。因此,在开发和训练多模态大模型时,合理利用半合成数据是非常必要的。

3. 大模型发展的终极状态

最后,再来谈谈另一个问题。大模型的最终产物是 Tokens,不同模型产出的 Tokens,其价值可能有所不同。Token 的数量乘以 Token 的价值约等于总价值产出,也可以称之为 Token GDP

我们或许还应该设立一个 Token 指数,用以衡量居民、政府和企业的 Token GDP。根据工业化的基本理念,未来将由几家主流的 Token 工厂完成 Token 的生产。未来的这些 Token 工厂可能是类似 Lepton、Anyscale、硅基流动这样的厂商,也可能是 OpenAI、月之暗面、阿里这样的原创大模型厂商,或者两者兼而有之。但为了实现规模效应,最终一定会集中于少数几家企业。Token 的消耗将会有多大?未来,人类所有的信息都将通过 Tokens 来表达。

从这个论点其实可以反推一件事:未来是否能实现 AGI 其实没想象的那么重要,只要以当前的 GPT-4-Turbo 为基准,持续逐步提升性能,并降低 Token 的生产成本,那么大模型的发展就已经算是很成功了。这看起来也是 OpenAI 正在做的事情。

4. 如何评价大模型迭代速度的减缓?

人类的注意力和资金流向哪里,哪里的发展就会加速。但大模型能吸引的注意力和资金终究有限。

由于大模型的商业化需要市场支持,而市场的发展依赖于应用,因此资金最终会加速流向有价值的应用领域。这将导致大模型的迭代速度减缓。你现在应该已经对此有所感受。

此外,2024 年 6 月,OpenAI 的 CEO 表示正在考虑将公司转变为营利性企业。过去 6 个月,OpenAI 年化收入翻倍,达到 34 亿美元,这表明这家 ChatGPT 提供商的业务仍在加速增长。据知情人士透露,OpenAI 的 CEO Sam Altman 最近向部分股东表示,公司正在考虑改变其治理结构,可能转型为一个不受非营利董事会控制的营利性公司。董事会正在考虑将公司转型为营利性公益公司,这一模式与其竞争对手 Anthropic 和 xAI 相似 。这一转变将为 OpenAI 未来进行 IPO 铺平道路。目前,OpenAI 的市场估值达到了 860 亿美元。针对这一报道,OpenAI 公开声明其将继续保持非营利性质,全力以赴履行其使命,但它还将创建一个营利性实体

5. 小结一下

  • 工业化的 Scaling Law:超越参数与数据

  • 数据红利:合成数据的潜力

  • 终极目标:Token 工厂与 Token GDP


📚️ 相关链接:

相关推荐
一 铭1 天前
《Hands_On_LLM》8.2 RAG: 利用语言模型进行语义搜索(Semantic Search with Language Models)
人工智能·语言模型·大模型·llm
网安打工仔1 天前
斯坦福李飞飞最新巨著《AI Agent综述》
人工智能·自然语言处理·大模型·llm·agent·ai大模型·大模型入门
猿类崛起@1 天前
百度千帆大模型实战:AI大模型开发的调用指南
人工智能·学习·百度·大模型·产品经理·大模型学习·大模型教程
黑客-雨1 天前
从零开始:如何用Python训练一个AI模型(超详细教程)非常详细收藏我这一篇就够了!
开发语言·人工智能·python·大模型·ai产品经理·大模型学习·大模型入门
玩电脑的辣条哥4 天前
如何将自己本地项目开源到github上?
大模型·github·api·ollama
DogDaoDao5 天前
AI 大爆发时代,音视频未来路在何方?
人工智能·ai·大模型·音视频·视频编解码
uncle_ll5 天前
ChatGPT大模型极简应用开发-目录
人工智能·gpt·chatgpt·大模型·llm
uncle_ll6 天前
ChatGPT大模型极简应用开发-CH1-初识 GPT-4 和 ChatGPT
人工智能·gpt·chatgpt·大模型·llm
青禾tester7 天前
【AI落地】如何创建字节的coze扣子工作流 ——以“批量获取抖音视频文案”为例
人工智能·经验分享·gpt·大模型·字节跳动·coze扣子
大模型之路7 天前
MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5
人工智能·语言模型·大模型·多模态·minicpm-o 2.6