重建 AI 认知第 1 篇：基础认知——一张地图看懂 AI Landscape

第一节：这些 AI 术语到底是什么关系？

先解决一个最基础、但也最容易混淆的问题：AI、ML、DL、GenAI、AGI，它们到底是什么关系？

很多人以为它们是并列的，或者是一个路线上的几个阶段。其实不是，它们是套娃结构：

复制代码

人工智能（AI）
  └── 机器学习（ML）------ 让机器从数据中学习，不靠人写规则
        └── 深度学习（DL）------ 用多层神经网络，ML 里最成功的一支
              ├── 计算机视觉（CV）------ 让机器看懂图像
              │     ├── 人脸识别
              │     ├── 自动驾驶
              │     └── OCR 文字识别
              └── 自然语言处理（NLP）------ 让机器理解语言
                    └── 大语言模型（LLM）------ 当前 AI 的主角
                          └── 生成式 AI（GenAI）------ 能创造新内容的 AI
                                ├── 文本生成（ChatGPT、Claude）
                                ├── 图像生成（Midjourney、DALL·E）
                                ├── 视频生成（Sora）
                                └── 音频生成（Suno）

几个容易搞混的点：

ML 和 DL 不是"传统 AI"，它们是 AI 的底层技术，大模型本身就是 DL 的产物
CV 和 NLP 是并列关系，人脸识别（CV）和对话模型（NLP）用了各自不同的架构，但底层都是 DL
GenAI 是 LLM 这个枝上长出来的果实，不是跟 ML 并列的层级。ChatGPT、Claude 都属于 GenAI

那 AGI（通用人工智能） 呢？它不在上面这张图里。图上所有东西都是窄 AI（Narrow AI）------只擅长特定领域。AGI 是一个还没实现的愿景，指的是"在所有领域都能像人一样思考和推理的 AI"。它是远处的山头，不是我们脚下的路。

→ 下一篇会深入讲 LLM 是怎么工作的，为什么它跟之前的 AI 不一样

第二节：那大模型到底是什么东西？

如果你去搜 LLM 的原理，会看到一堆看不懂的词：Transformer、Attention、自监督学习...... 但说到底，大模型的本质比你想象的要简单。

大模型 = 两个文件

这是 AI 科学家 Andrej Karpathy 用来说服普通人的方法。一个训练好的大模型，拆到最简就是两个文件：

一个参数文件（比如 140GB）------ 里面是几十亿到几千亿个数字。这些数字是模型在训练过程中"学到的知识"，编码了它对语言和世界的理解。一般用参数数量来称呼模型大小，比如 7B 就是 70 亿个参数，70B 就是 700 亿个。参数越多，模型理论上越聪明，但需要的 GPU 也越多。
一段推理代码（可以简化到几百行）------ 定义怎么读取那些数字、怎么用它们来预测下一个词。这段代码实现了"输入一句话 → 按参数计算 → 输出下一个词"的循环。

训练 vs 推理

训练：拿海量文本（千万亿个词）去调整那几十亿个参数，让模型学会预测下一个词。成本极高------训练一个 70B 模型大约需要6000 张 GPU 跑 12 天，花费约 200 万美元。这还没算前面 3~6 个月的数据清洗时间。
推理：训练好的模型拿来用，你输入问题，它计算输出。这是每次调用花几分钱的阶段，也是你做 AI 产品真正关心的成本。

三步流程

所有大模型都遵循一个通用的生产流程：

复制代码

预训练 → 对齐 → （可选）微调

预训练 ：让模型学知识（就是上面说的那 200 万美元干的事）。数据来源主要是公开网页、论文、书籍等。不同模型的核心架构大部分相似，真正的差距主要在数据清洗策略------什么数据保留、什么去掉、各类数据怎么配比。这是各厂商的竞争力壁垒。
对齐：让模型说人话、有礼貌、不回答有害内容。靠人工标注员对模型的回答进行排序，告诉模型"这种回答好，那种不好"。对齐的成本中人力是最大头，甚至可能超过预训练的算力成本------这也是闭源模型比开源模型"聊起来更舒服"的主要原因。
微调（企业自己做的）：在已经训练好的模型上，用你自己的业务数据继续训练一小步，让模型更懂你的业务。微调不教模型新知识，而是教模型"面对你的业务场景时，应该怎么回答"。

Scaling Laws

行业在 2020 年发现了一个关键规律：模型的能力跟参数规模、训练数据量之间存在可预测的正比关系 ，而且没有见顶的迹象。这就是 Scaling Laws。它告诉业界：只要堆算力、堆数据，模型就会变聪明。 这个发现直接驱动了过去几年的"大模型军备竞赛"。

这后来有一个修正------光堆参数不行，数据质量同样重要。参数再多，训练数据质量不高，能力提升也会变慢。

→ L3 会深入讲 Prompt Engineering、RAG、Agent、微调这几种应用范式的适用场景和取舍

第三节：LLM 能做什么，不能做什么

理解边界比理解能力更重要。转型AI的人要知道"什么事可以交给 AI，什么事别指望 AI"。

能做的

内容生成：写文章、写邮件、写方案
总结归纳：长文变短文、会议纪要
翻译润色：改语气、改风格、翻译语言
问答推理：基于知识回答问题
角色扮演：按设定的身份和规则对话
代码生成：写代码、解释代码

不能做的（当你设计产品时重点关注）

LLM 的边界	对你的产品意味着什么
会编造事实（幻觉）	关键信息不能完全信任，需要验证机制
知识不实时	截至训练时间。需要 RAG 补充最新信息
数学不精确	涉及精确计算的要靠代码，不靠模型
上下文窗口有限	长对话需要自己管理记忆
不擅长精确指令	复杂指令会遗漏细节，prompt 要简洁分步

→ 理解这些边界后，L4 会讲怎么评估模型输出质量、怎么控制成本、怎么做安全设计

第四节：整个 AI 产业链长什么样？

全产业链视角

从最底层到最应用层，AI 涉及六个层次：

复制代码

应用层：各种 AI 产品和行业解决方案
工具层：LangChain / Dify / Coze / Ollama 等开发框架和平台
模型层：OpenAI / Anthropic / Meta / DeepSeek / Qwen 等模型厂商
算力层：阿里云 / AWS / Azure / 火山引擎 等云服务商
芯片层：NVIDIA / AMD / 华为昇腾 等硬件厂商
能源层：电力供应 / 数据中心散热 / 绿电

越往下越重资产、越集中（一两个厂商卡住整条链），越往上越轻、创新空间越大。

PM 视角的三层

但作为一个学 AI 的产品/业务/设计人员，你不需要天天盯着芯片和算力。简化来看：

复制代码

模型层 → 谁造大脑
工具层 → 什么工具帮你用好大脑
应用层 → 你用 AI 解决什么具体问题

你的战场在应用层。 不是去跟算法工程师卷模型能力，而是理解每种范式的适用边界、评估成本和效果、判断什么场景真正值得用 AI。

写在最后

这张地图是第一步。

后续我会按这个路线逐步深入：

第 2 篇：核心原理------LLM 到底是怎么工作的（Token、Embedding、上下文窗口......）
第 3~6 篇：关键范式------Prompt Engineering、RAG、Agent、微调，分别解决什么问题、怎么选
第 7~8 篇：系统架构------评估、成本、安全、数据飞轮
第 9 篇：产品策略------PMF 判断、竞品分析、趋势洞察
第 10 篇+：项目实践------AI 垂直应用从 0 到 1 的案例拆解

这篇文章没有很深的技术内容，它的目的是让你看到全貌。之后每一层都会往深走，但始终是在这张地图上去定位自己。

胸中有图，方向自清。