AI 技术栈不复杂:四个层级讲明白,我选了最香的一层

一组重叠的层。来自 Unsplash。

引言

AI 领域是个庞大而复杂的世界。Matt Turck 每年都会发布他的 Machine Learning、AI 和 Data(MAD)领域图谱,每次看起来都越来越疯狂。看看他为 2024 年画的最新这张图:

点上面链接看高清版。图片来自 Matt Turck。

一句话:太压了。

不过我们可以用抽象的方式帮自己理清这个混乱的世界。我这篇文章会讲也会拆的,就是一个叫做 AI 技术栈的概念。所谓栈,就是构建应用程序所用的一组技术。搞过 Web 开发的人可能知道 LAMP 栈:Linux、Apache、MySQL、PHP。这是 WordPress 背后的技术组合。像 LAMP 这种顺口缩写就是帮我们人类处理复杂性的办法之一。数据圈的朋友可能听说过现代数据栈:一般是 dbt、Snowflake、Fivetran 和 Looker(或者是后现代数据栈,IYKYK)。

AI 栈也是类似的,但我这篇文章会偏概念一点。我不会列出你该在每一层用啥技术,而是直接把这几层讲清楚,然后你自己看你属于哪层、该选哪些工具实现目标。

关于 AI 栈的说法有很多。我偏好简单的。所以我把它分成四层,从离终端用户最远的底层到最上面的应用层排列:

基础设施层(最底) :训练和推理 AI 所需的原始物理硬件。想想 GPU、TPU、云服务(AWS/Azure/GCP)。

数据层(底) :训练机器学习模型所需的数据,以及存储这些数据的数据库。像 ImageNet、TensorFlow Datasets、Postgres、MongoDB、Pinecone 等。

模型与编排层(中间) :就是大型语言模型、视觉模型、推理模型本身。比如 GPT、Claude、Gemini,或者其他任何 ML 模型。同时也包括开发者用来构建、部署、监控模型的工具,比如 PyTorch/TensorFlow、Weights & Biases、LangChain。

应用层(最上) :面向用户的 AI 应用。比如 ChatGPT、GitHub Copilot、Notion、Grammarly。

AI 栈的层级结构。图:作者提供。

很多公司会在多个层里试水。比如 OpenAI 既训练了 GPT-4o,也做了 ChatGPT Web 应用。基础设施层,他们跟微软合作,用 Azure 云拿按需 GPU。数据层,他们搞了爬虫来抓海量自然语言数据给模型训练------当然也引发过争议。

应用层的优点

我非常同意 Andrew Ng 和圈内很多人的观点:AI 的应用层是最值得做的地方。

为啥呢?从基础设施层说起吧。这一层门槛高得离谱,除非你有几亿美元的风投可以烧。搞个自己的云服务或发明个新 GPU,技术复杂度非常高。所以亚马逊、谷歌、Nvidia、微软这些巨头统治这层,不奇怪。模型层也一样。像 OpenAI、Anthropic 这种公司有一堆 PhD 大军在搞创新。而且还得和科技巨头合作才能搞定模型训练和托管。这两个层级也都在迅速商品化,也就是说这个云服务/模型和那个差不多,性能相近,可以随便替换。大家比的是价格、方便程度、品牌。

数据层挺有意思。生成式 AI 崛起后,一堆公司争着当最火的向量数据库,比如 Pinecone、Weaviate、Chroma。但这层的客户群体小很多(写 AI 应用的远比用 AI 应用的人少)。而且这个领域商品化也很快。Pinecone 换 Weaviate 很容易,比如说 Weaviate 降价很多,那开发者很可能就切了。

数据库这块也在革新。像 pgvector 和 sqlite-vec 这些项目,把老牌数据库做成能处理向量嵌入的版本。这一块我挺想参与的。不过,要靠这个赚钱不太明朗,而且谈赚钱总感觉有点脏(我 ♥️ 开源!)

说回应用层。这就是草根可以赢大厂的地方。把最新的 AI 技术集成进 Web 应用,这需求会一直在。而且只要你做出来的产品能打动人,这里最容易赚钱。应用可以是 SaaS 产品,也可以是定制化、服务于某公司的内部工具。

记住,大模型层的公司天天都在卷:更强、更快、更便宜的模型一波接一波。比如你用的是 GPT-4o,OpenAI 更新了模型,你啥也不用做,直接吃上红利,性能蹭蹭提升。这就像 iPhone 升级一样,但更香------连安装都不用,API 回来的内容直接变强。

想换新模型?改一行代码,响应质量立马提升(商品化的好处)。你看最近 DeepSeek 的爆点事件,对 OpenAI 是打击,但对开发应用的人来说简直是喜讯。

当然,应用层也不是没坑。我看到不少人在社媒上哀嚎:SaaS 饱和了。拉人注册都难,更别说让他们掏卡付费了。有时候感觉没 VC 你根本做不了营销,还得整一个"黑底黑字的潮网站"。而且你要小心别做出一个很快就被大厂模型给"吃掉"的功能。比如 Perplexity 最初靠搜索+LLM 成名,但现在大多数聊天应用也都有搜索功能了。

另一个难点是领域知识。就是你懂某个细分领域,比如法律、医疗、汽车这些。你技术再强,要是不了解业务场景,那你的应用就只是"看起来好像有用"。比如你觉得文档摘要能帮律所,但你不和律师配合,那东西永远只是理论上的好用。动用你的人脉,去认识领域专家,他们能让你产品更接地气。

要不就自己给自己做。你自己都觉得这东西好用,那大概率别人也会喜欢。然后就可以自己试用,不断改进了。

厚包装

最早那批集成生成式 AI 的应用被嘲笑为"薄包装"。确实,你只是把 LLM 接上聊天界面,那基本上是在和 ChatGPT、Claude 这些打价格战。

典型的薄包装长这样:

• 一个聊天界面

• 基础 prompt 工程

• 一个很快就会被大模型自带功能替代的 feature,或者干脆已经能用大模型的原生功能做到

比如说一个"AI 写作助手",其实就是把 prompt 扔给 ChatGPT 或 Claude,加一点模板;再比如一个"AI 摘要工具",就是喂文本进去让 LLM 总结,连一点预处理或领域特化都没有。

我们 Los Angeles AI Apps 做 Web 应用和 AI 集成这块,有一个判断标准来避免做出薄包装应用:

如果这个应用在搜索能力上不能远超 ChatGPT,那它就太薄了。

这里要讲讲"远超"这个标准。就算你比 ChatGPT 强一点,也不够。必须强很多,用户才可能考虑换你的产品。

举个例子。当初我学数据科学时,做了个电影推荐项目。是个挺好的学习过程,也学到了 RAG 和 Web 应用。

我之前的电影推荐 App,怀念一下。图:作者拍的。

它适合上线做产品吗?不适合。

你不管问啥,ChatGPT 八成也能推荐出差不多的电影。虽然我用了 RAG,也拉了一个很棒的电影数据集,但用户很可能觉得这和 ChatGPT 差不多。而且他们早就习惯用 ChatGPT,就算我这个比它强两三倍,他们也不会换(当然,"强"的定义也难讲清楚。)

再举个例子。我们曾考虑做一个城市政府网站的聊天助手。这类网站内容大又难找。我们想,如果能爬完整个站点,然后用 RAG,就可以做个聊天机器人来回答用户问题。测试下来还不错,但 ChatGPT + 搜索太强了,常常能干掉我们这个机器人。要把我们这个调到比它稳定强,那得调很多轮。即便做到了,用户凭啥来我们这问?直接在 ChatGPT 上问不香吗?唯一办法就是卖给政府,把机器人直接集成到他们官网上,那才可能有用。

要想真正差异化,关键在于"独家数据"。

如果你掌握了大模型没有的数据,那它就值钱了。这时候,价值就在于数据的收集,而不是你做的聊天界面或 RAG 系统。

比如一个法律 AI 创业公司,拥有一个公开网络上找不到的法律文档库。然后用 RAG 帮模型回答这些文档里的法律问题。那它就有机会干掉 ChatGPT + 搜索,前提是这些法律文件在 Google 上确实搜不到。

更进一步,我认为最有效的方式是彻底放弃聊天界面

我要介绍两个概念:

• 主动式 AI

• 睡觉 AI

Clippy 回归了

我看了一篇 Evil Martians 的好文,说的是应用层的新玩法。他们完全不搞聊天界面,搞的是"主动式 AI"。还记得 Word 里的 Clippy 吗?你一边打字,它就跳出来建议你改啥。虽然当时很多建议不靠谱,被大家吐槽,但现在有了 LLM,可以做一个真正强大的 Clippy。

它不等你问,而是自己就能出招给你建议。就像 VSCode 里的 Copilot,不等你打完,它就给你代码建议。如果设计得好,这种 AI 能大大降低使用门槛,提升用户体验。

当然,做主动式 AI 要非常小心。你不希望你的 AI 一直骚扰用户,不然会很烦。也能想象一个反乌托邦的未来:LLM 不断用人类语言劝你买垃圾、刷短视频,逼着你消费。其实现在很多推荐系统就干这个,只不过换成人话更烦。开发者一定得确保 AI 是在帮用户,不是在坑他们。

睡觉时把事干完

AI 深夜上班图。图源:GPT-4o。

另一个不走聊天界面的方向是:离线用 LLM,而不是在线交互。比如说你想搞一个自动生成的 newsletter。系统自己爬取各种线索来源,然后写出文章。每一期 newsletter 的生产由后台任务驱动,每天或每周跑一次。

关键点来了:没有聊天界面。

用户不参与任何交互,只管欣赏每期 newsletter 的成果。这个我叫它"睡觉 AI"。

你晚上睡觉,它帮你写稿;早上醒来就能看结果。这种应用,压根不该有聊天界面或建议提示。

当然,人参与一下是好的。比如 newsletter 发你前,AI 先列几个建议的文章,你可以勾选进不进、编辑标题、摘要、封面图这些。这样协作体验会更顺滑。

总结

这篇文章我讲了 AI 栈的基本结构:基础设施、数据、模型/编排、应用层。我也说了为啥我觉得应用层是最好的切入点:因为不容易被商品化,离用户最近,而且能吃到底层带来的好处。

我还说了怎么避免做出薄包装的应用,以及如何彻底摆脱聊天界面,用新的方式做 AI 应用。

下一篇我会讲:如果你要用 AI 构建 Web 应用,最该学的语言不是 Python,而是 Ruby。

我还会分析:虽然大家都在用微服务架构,但它可能并不是构建 AI 应用的最好方式。

相关推荐
深空数字孪生1 小时前
AI时代的数据可视化:未来已来
人工智能·信息可视化
Icoolkj1 小时前
探秘 Canva AI 图像生成器:重塑设计创作新范式
人工智能
魔障阿Q1 小时前
windows使用bat脚本激活conda环境
人工智能·windows·python·深度学习·conda
Wnq100721 小时前
巡检机器人数据处理技术的创新与实践
网络·数据库·人工智能·机器人·巡检机器人
Eric.Lee20212 小时前
数据集-目标检测系列- 冥想 检测数据集 close_eye>> DataBall
人工智能·目标检测·计算机视觉·yolo检测·眼睛开闭状态检测识别
胡乱儿起个名2 小时前
Relay算子注册(在pytorch.py端调用)
c++·人工智能·tvm·编译器·ai编译器
嘉图明3 小时前
《从数据殖民到算法正义:破解AI垄断的伦理与技术路径》
人工智能·算法
shadowtalon3 小时前
基于CNN的猫狗图像分类系统
人工智能·深度学习·神经网络·机器学习·计算机视觉·分类·cnn
蹦蹦跳跳真可爱5893 小时前
Python----神经网络(《Deep Residual Learning for Image Recognition》论文和ResNet网络结构)
人工智能·python·深度学习·神经网络
极术社区3 小时前
【“星睿O6”评测】Armv9.2a、KLEIDIAI及vulkan加速llamacpp部署本地AI
大数据·人工智能