ChatGPT一夜爆火,是算力、数据、算法七十年的漫长等待后的爆发

2022年年底,ChatGPT横空出世,两个月月活破亿,成为人类有史以来增长最快的互联网产品。

一夜之间,全世界都在讨论AI,都想着和ChatGPT对话。

ChatGPT是一夜爆火,但并不是凭空冒出来的。

上篇文章《AI不是从天而降,它经历了七十年三起三落:读懂AI的第三课》,我们知道从1950年图灵提出"机器能思考吗"到现在,这条路走了七十年。前两次AI热潮都沉寂了,唯独这一次,真的改变了每个人的工作和生活。

原因只有一个:算力、数据、算法引爆AI的三个条件,第一次同时凑齐了


第一个:算力------让AI有了有力的工具。

同样烧开一壶水,用电磁炉5分钟搞定,用蜡烛可能得烧到明天。

AI的算力,就是电磁炉和蜡烛的差别。

电脑芯片,从几十纳米,到如今的几纳米,能力越来越强。强大的算力,让AI的训练,从几年变成几个月乃至几周。大模型的突然爆发,也有能理解了。

因为硬件终于跟上了。但"硬件跟上"这四个字,也并非一路坦途。

2012年之前,AI研究主要用的还是CPU,训练一个图像识别模型可能要好几天。2012年AlexNet证明GPU(显卡芯片)并行计算能力远超CPU之后,NVIDIA顺势成为AI时代最重要的基础设施公司,GPU从游戏设备变成了AI训练的"标配"。2017年Google推出TPU(张量处理器),专门为深度学习设计,进一步拉高了算力上限。

算力的飞速增长带来了一个直接结果:训练大模型的成本在持续下降。

2017年训练一个中等规模的语言模型可能需要几十万美元;2020年GPT-3的训练成本据传已经接近千万美元级别;到了2024年,DeepSeek-V3用约600万美元的训练成本,做出了性能接近GPT-4o的模型,这个成本在几年前是不可想象的。

成本下降意味着更多公司有能力训练自己的大模型,而不是只有资金雄厚的巨头才能玩得起,这也让更多的企业,可以独立部署自己的AI,来规避数据泄露的可能。

算力的提升,让AI商业化之路,变得轻松。

第二个:数据------让AI有了充足的燃料。

老话说"巧妇难为无米之炊"。再厉害的厨师,没米也做不出饭。

AI也一样,再强的算力,再好的算法,没有数据也训练不出什么结果来。

互联网三十年积累了大量人类语言、图片、视频等等数据。ChatGPT读了几乎整个互联网的文字,你让DeepSeek帮你写方案,它能写出来,是因为它肚子里有足够多的素材。

但数据的故事不只是"量多"这么简单。

首先是规模。GPT-3用了约3000亿个token(词元)训练,DeepSeek-V3用了约14.8万亿token。读得越多,知识覆盖面越广,理解能力越强。

其次是质量。互联网上的数据是"有杂质"的,广告文案、网络吵架、无意义的水帖充斥其中。顶级AI实验室会花大量时间做"数据清洗"和质量筛选,从海量原始数据中挑出真正有价值的部分。

再次是多样性。单一来源的数据会让AI产生偏见,AI需要接触不同语言、不同领域、不同视角的数据,才能发展出更平衡的理解能力。

最后是"后训练"数据。大模型预训练完成后,还需要通过高质量的指令数据、人类反馈数据做进一步调优------这一步叫RLHF(基于人类反馈的强化学习),正是ChatGPT在2022年引爆行业时最核心的技术突破之一。预训练让AI"见过世面",RLHF让它"懂得规矩"。

没有数据,再强大的版图,再好的算法也只能空转。

第三个:算法------让AI有了高效的能力。

有火有米,要想做出好吃的饭,还得有食谱。

AI要想真正智能起来,就需要一套高效的算法,这就是AI的"食谱":规定好每一步怎么做、火候怎么掌握。

而这个算法的发展,也是在经历了几个关键节点后达到现在的水平。

符号 AI 时代(1950s-1980s):科学家们试图用明确的规则让机器"推理",比如"如果下雨,就带伞"。规则越多越复杂,但遇到没有预设的情况就完全失效。

连接主义崛起(1980s-2010s):让机器通过大量数据自己总结规律,而不是靠人工写规则。1986年反向传播算法(Backpropagation)的完善让深度学习成为可能,但受制于当时的算力和数据,发展缓慢。

2017年:Transformer登场。Google发表了论文《Attention Is All You Need》,提出了Transformer架构。这个架构让AI第一次能高效处理超长序列的数据,同时也让并行计算成为可能,直接催生了后来所有大语言模型。

可以这么说:没有Transformer,就没有ChatGPT,也没有今天的AI大模型。

2022年后:工程化的力量。算法不只有"架构"创新,训练方法、工程优化、推理加速......这些"工程化"的工作同样关键。DeepSeek之所以能震惊全球,不只是因为架构好,更是因为它用更少的算力和数据,通过一系列工程优化,做出了不逊于GPT的效果。这就相当于用更小的火、更少的米,按照更好的食谱,做出了一样好吃甚至更好吃的饭。

没有算法,再多数据和算力,也无用武之地。


今天的AI:它到底是什么?

说了这么多历史和技术,那到底应该怎么理解AI?

AI是Artificial Intelligence的缩写,也就是人工智能,是一项让机器具备人类一样的感知、理解和决策能力的技术。

它的核心就两点:

  1. 它不是魔法,是基于数学和算法的技术

  2. 它的目标是模仿人类智能的某些方面,而不是复制一个完整的人

它不需要有情感、有自我意识。它的"智能"体现在,做到以前只有人类才能做到的事,甚至超越人类。比如识别图片、能听懂你说的话、能生成文字和图片、能帮你做分析做决策。具体到我们的工作场景,AI现在能帮你做到:

  • 写作:写邮件、写方案、写总结、写代码,帮你从0到1

  • 分析:读懂数据、找出规律、给出建议,帮你做判断

  • 搜索:帮你找资料、总结要点、翻译成大白话

  • 创作:生成图片、海报、文案,帮你做创意

  • 客服:24小时在线,自动回答问题,帮你省人工

你可能会说:这些听起来好像也没什么了不起?

但关键在这里:以前这些事,你得花钱请人、花时间培训。现在,一个AI工具,几秒钟就能做,而且24小时不休息。

AI真正厉害的地方,不是某个功能有多惊艳,而是它把以前"很贵的事"变成了"很便宜的事"。


回到最初的问题:AI是什么?

它是一系列让机器"看起来像在思考"的技术的集合。它的目标是辅助人类,而不是取代人类。它的能力边界在不断扩展,但它依然只是一个工具,一个极其强大的工具。

它可能在你手机里帮你设闹钟,可能在你刷抖音时猜你喜欢,可能在你主动提问时帮你找答案、写方案、做总结,可能在你公司里24小时当客服。

搞清楚AI是什么,是理解它如何影响你职场的第一步,也是我们用好它的第一步。

下一篇文章开始,我深挖一下AI一路起来的筚路蓝缕,从历史的角色,来理解AI!

相关推荐
doiito8 小时前
【Agent Harness】Gliding Horse 给 Agent OS 装上双曲空间引擎与默克尔树边云同步
ai·rust·架构设计·系统设计·ai agent
knqiufan11 小时前
从 Python 到 TypeScript,用 GLM-5.2 跑通 PowerMem SDK 的长程任务工程
ai·memory·agentic·powermem
小白跃升坊1 天前
Codex 增强部署:基于 Codex++ 接入 DeepSeek
ai·ai编程·codex·deepseek·ai coding·codex++
AlfredZhao1 天前
GPT 省钱,不是别用最新模型,而是别浪费缓存
gpt·ai
doiito1 天前
【Agent Harness】Gliding Horse 本体论系统设计:给 AI Agent 装上“语义大脑”
ai·rust·架构设计·系统设计·ai agent
小七-七牛开发者2 天前
周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资
ai·agent·token·glm·智谱·claudecode·ai coding·周一上线
doiito2 天前
【Agent Harness】为什么我把 JSON‑LD “编译成 DAG” 后,整个 Agent 平台立刻聪明了
ai·rust·架构设计·系统设计·ai agent
xiezhr3 天前
折腾半小时,终于让AI 能直接帮我写飞书文档了
ai·飞书·ai agent·飞书cli·飞书文档
岳小哥AI3 天前
Claude Fable和Claude Mythos 5同时发布:注意力机制下愈加强大的AI大模型
ai·ai基础
Artech3 天前
[MAF预定义的AIContextProvider-04]Mem0Provider——长期记忆基于的云端解决方案
ai·agent·maf·aicontextprovider·chathistorymemoryprovider·mem0provider