重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape

第一节:这些 AI 术语到底是什么关系?

先解决一个最基础、但也最容易混淆的问题:AI、ML、DL、GenAI、AGI,它们到底是什么关系?

很多人以为它们是并列的,或者是一个路线上的几个阶段。其实不是,它们是套娃结构

复制代码
人工智能(AI)
  └── 机器学习(ML)------ 让机器从数据中学习,不靠人写规则
        └── 深度学习(DL)------ 用多层神经网络,ML 里最成功的一支
              ├── 计算机视觉(CV)------ 让机器看懂图像
              │     ├── 人脸识别
              │     ├── 自动驾驶
              │     └── OCR 文字识别
              └── 自然语言处理(NLP)------ 让机器理解语言
                    └── 大语言模型(LLM)------ 当前 AI 的主角
                          └── 生成式 AI(GenAI)------ 能创造新内容的 AI
                                ├── 文本生成(ChatGPT、Claude)
                                ├── 图像生成(Midjourney、DALL·E)
                                ├── 视频生成(Sora)
                                └── 音频生成(Suno)

几个容易搞混的点:

  • ML 和 DL 不是"传统 AI",它们是 AI 的底层技术,大模型本身就是 DL 的产物
  • CV 和 NLP 是并列关系,人脸识别(CV)和对话模型(NLP)用了各自不同的架构,但底层都是 DL
  • GenAI 是 LLM 这个枝上长出来的果实,不是跟 ML 并列的层级。ChatGPT、Claude 都属于 GenAI

AGI(通用人工智能) 呢?它不在上面这张图里。图上所有东西都是窄 AI(Narrow AI)------只擅长特定领域。AGI 是一个还没实现的愿景,指的是"在所有领域都能像人一样思考和推理的 AI"。它是远处的山头,不是我们脚下的路。

→ 下一篇会深入讲 LLM 是怎么工作的,为什么它跟之前的 AI 不一样


第二节:那大模型到底是什么东西?

如果你去搜 LLM 的原理,会看到一堆看不懂的词:Transformer、Attention、自监督学习...... 但说到底,大模型的本质比你想象的要简单。

大模型 = 两个文件

这是 AI 科学家 Andrej Karpathy 用来说服普通人的方法。一个训练好的大模型,拆到最简就是两个文件:

  1. 一个参数文件(比如 140GB)------ 里面是几十亿到几千亿个数字。这些数字是模型在训练过程中"学到的知识",编码了它对语言和世界的理解。一般用参数数量来称呼模型大小,比如 7B 就是 70 亿个参数,70B 就是 700 亿个。参数越多,模型理论上越聪明,但需要的 GPU 也越多。

  2. 一段推理代码(可以简化到几百行)------ 定义怎么读取那些数字、怎么用它们来预测下一个词。这段代码实现了"输入一句话 → 按参数计算 → 输出下一个词"的循环。

训练 vs 推理

  • 训练 :拿海量文本(千万亿个词)去调整那几十亿个参数,让模型学会预测下一个词。成本极高------训练一个 70B 模型大约需要6000 张 GPU 跑 12 天,花费约 200 万美元。这还没算前面 3~6 个月的数据清洗时间。
  • 推理 :训练好的模型拿来用,你输入问题,它计算输出。这是每次调用花几分钱的阶段,也是你做 AI 产品真正关心的成本。

三步流程

所有大模型都遵循一个通用的生产流程:

复制代码
预训练 → 对齐 → (可选)微调
  • 预训练 :让模型学知识(就是上面说的那 200 万美元干的事)。数据来源主要是公开网页、论文、书籍等。不同模型的核心架构大部分相似,真正的差距主要在数据清洗策略------什么数据保留、什么去掉、各类数据怎么配比。这是各厂商的竞争力壁垒。
  • 对齐 :让模型说人话、有礼貌、不回答有害内容。靠人工标注员对模型的回答进行排序,告诉模型"这种回答好,那种不好"。对齐的成本中人力是最大头,甚至可能超过预训练的算力成本------这也是闭源模型比开源模型"聊起来更舒服"的主要原因。
  • 微调 (企业自己做的):在已经训练好的模型上,用你自己的业务数据继续训练一小步,让模型更懂你的业务。微调不教模型新知识,而是教模型"面对你的业务场景时,应该怎么回答"

Scaling Laws

行业在 2020 年发现了一个关键规律:模型的能力跟参数规模、训练数据量之间存在可预测的正比关系 ,而且没有见顶的迹象。这就是 Scaling Laws。它告诉业界:只要堆算力、堆数据,模型就会变聪明。 这个发现直接驱动了过去几年的"大模型军备竞赛"。

这后来有一个修正------光堆参数不行,数据质量同样重要。参数再多,训练数据质量不高,能力提升也会变慢。

→ L3 会深入讲 Prompt Engineering、RAG、Agent、微调这几种应用范式的适用场景和取舍


第三节:LLM 能做什么,不能做什么

理解边界比理解能力更重要。转型AI的人要知道"什么事可以交给 AI,什么事别指望 AI"。

能做的

  • 内容生成:写文章、写邮件、写方案
  • 总结归纳:长文变短文、会议纪要
  • 翻译润色:改语气、改风格、翻译语言
  • 问答推理:基于知识回答问题
  • 角色扮演:按设定的身份和规则对话
  • 代码生成:写代码、解释代码

不能做的(当你设计产品时重点关注)

LLM 的边界 对你的产品意味着什么
会编造事实(幻觉) 关键信息不能完全信任,需要验证机制
知识不实时 截至训练时间。需要 RAG 补充最新信息
数学不精确 涉及精确计算的要靠代码,不靠模型
上下文窗口有限 长对话需要自己管理记忆
不擅长精确指令 复杂指令会遗漏细节,prompt 要简洁分步

→ 理解这些边界后,L4 会讲怎么评估模型输出质量、怎么控制成本、怎么做安全设计


第四节:整个 AI 产业链长什么样?

全产业链视角

从最底层到最应用层,AI 涉及六个层次:

复制代码
应用层:各种 AI 产品和行业解决方案
工具层:LangChain / Dify / Coze / Ollama 等开发框架和平台
模型层:OpenAI / Anthropic / Meta / DeepSeek / Qwen 等模型厂商
算力层:阿里云 / AWS / Azure / 火山引擎 等云服务商
芯片层:NVIDIA / AMD / 华为昇腾 等硬件厂商
能源层:电力供应 / 数据中心散热 / 绿电

越往下越重资产、越集中(一两个厂商卡住整条链),越往上越轻、创新空间越大。

PM 视角的三层

但作为一个学 AI 的产品/业务/设计人员,你不需要天天盯着芯片和算力。简化来看:

复制代码
模型层 → 谁造大脑
工具层 → 什么工具帮你用好大脑
应用层 → 你用 AI 解决什么具体问题

你的战场在应用层。 不是去跟算法工程师卷模型能力,而是理解每种范式的适用边界、评估成本和效果、判断什么场景真正值得用 AI。


写在最后

这张地图是第一步。

后续我会按这个路线逐步深入:

  • 第 2 篇:核心原理------LLM 到底是怎么工作的(Token、Embedding、上下文窗口......)
  • 第 3~6 篇:关键范式------Prompt Engineering、RAG、Agent、微调,分别解决什么问题、怎么选
  • 第 7~8 篇:系统架构------评估、成本、安全、数据飞轮
  • 第 9 篇:产品策略------PMF 判断、竞品分析、趋势洞察
  • 第 10 篇+:项目实践------AI 垂直应用从 0 到 1 的案例拆解

这篇文章没有很深的技术内容,它的目的是让你看到全貌。之后每一层都会往深走,但始终是在这张地图上去定位自己。

胸中有图,方向自清。

相关推荐
兮山与1 小时前
SpringAI4.0
ai
听风吹等浪起1 小时前
基于改进ResUNet的植物叶片语义分割系统设计与实现
人工智能·深度学习·分类
vivo互联网技术1 小时前
VAPD AgentKit:可组合 Agent 前端通用库实践
前端·ai·架构·agent
解局易否结局2 小时前
从零搭建 ops-transformer 开发环境:在昇腾NPU上跑通第一个算子
人工智能·深度学习·transformer
西西弗Sisyphus2 小时前
基于 Transformer 架构的翻译模型实践 - SentencePiece 输出的 token ID 到 Transformer 可处理的词向量
深度学习·transformer
凌峰的博客2 小时前
T2SMark:在扩散模型噪声水印中寻找鲁棒性与多样性的平衡
人工智能·深度学习·计算机视觉
学废了wuwu2 小时前
【CS336】导言
人工智能·深度学习·transformer
Hali_Botebie2 小时前
【量化】Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向:综述
深度学习·cnn·transformer
牧子川2 小时前
016-Structured-Output-Practical
大模型·格式化输出