[CS153]AI基础设施与技术栈

讲师：Anjney Midha（Ange）
- 公司: Anthropic 和 Periodic Labs
- Twitter handle: @anja_midha
课程名称从 "Security at Scale" 和 "Infrastructure at Scale" 演变为 "Frontier Systems"
课程目标：为现实世界做准备

AI 技术栈

核心框架-分层技术栈：

复制代码

┌─────────────────────────────────────────────┐
│              治理与监管 (Governance)          │
├─────────────────────────────────────────────┤
│           应用与解决方案 (Applications)         │
├─────────────────────────────────────────────┤
│            模型与智能体 (Models/Agents)       │
├─────────────────────────────────────────────┤
│              云与软件基础设施 (Cloud)          │
├─────────────────────────────────────────────┤
│              芯片 (Chips)                     │
├─────────────────────────────────────────────┤
│         数据中心：土地、电力、壳体              │
├─────────────────────────────────────────────┤
│               资本 (Capital)                 │
└─────────────────────────────────────────────┘

层级	说明	代表
资本	高度灵活，可以投向任何地方	-
物理基础设施	土地、电力、数据中心建设	Jensen Huang, Lisa Su
芯片	GPU、TPU 等计算芯片	-
云服务	使芯片可用的软件基础设施	Saama 和 Azure (Microsoft)
模型/智能体	训练后的模型，用于推理	Sam Altman (OpenAI)
应用	部署在真实世界的解决方案	-
治理	安全、安全性、信任框架	-

深度学习工业化

制造智能

公式：计算（Compute）+ 数据（Data）+ 算法（Algorithms）

流程（四年前的"精制工艺" vs 现在的工业规模）：

复制代码

过去（2019-2020年）：每年1-2次新模型
现在：
├── 预训练 (Pretraining)：每年至少2次，每次 ~100,000 GB200 等效算力
├── 中训练 (Mid-training)：每年2-4次，每次 ~10% 预训练算力
└── 持续后训练 (Continuous Post-training)：SFT + RL
    └── 最新发展：RL部分消耗的算力几乎与其他所有步骤总和相当

AI 研发已经从手工定制流程转变为工业化工程流程。

强化学习与上下文的重要性

强化学习

课程内容：

当你训练宠物或教弟弟妹妹远离你房间时，你就是在应用强化学习
关键思想：
1. 不告诉智能体如何完成任务
2. 只告诉它做什么任务
3. 成功完成 → 给予奖励
4. 未完成 → 保留奖励（惩罚）
5. 重复迭代

强化学习的新突破：

过去 70 年 RL 在不同领域（象棋、围棋等）超越人类后会迅速趋于平稳
当用 LLM 初始化 RL 环境时，模型具备足够的世界先验知识
结果：学习速度更快，能力随算力增加持续扩展
这一突破大约在 2 年前（2023年）开始真正规模化运作

飞轮模型（Scaling Flywheel）

课程反复强调的核心商业模式：

复制代码

┌──────────────┐
│  1. 筹集资金  │
└──────┬───────┘
       ▼
┌──────────────┐
│  2. 购买算力  │
└──────┬───────┘
       ▼
┌──────────────┐
│  3. 预训练模型│
└──────┬───────┘
       ▼
┌──────────────┐
│  4. 部署推理  │◄──────────────┐
└──────┬───────┘               │
       ▼                       │
┌──────────────┐              │
│  5. 获取收入  │              │
└──────┬───────┘              │
       ▼                       │
┌──────────────────┐           │
│  6. 上下文反馈循环│───────────┘
│  (Context Loop)   │
└──────────────────┘

上下文反馈循环的具体例子（以编程助手为例）：

用户使用模型完成编程任务
系统观察模型何时成功/失败
获取用户的 monkey 或 git 历史、本地文件
将这些上下文反馈通过 RL 管道传回
重复成百上千次，持续改进模型在该领域的能力

案例：Anthropic 从 9 亿美元增长到 200 亿美元收入，Gemini 表现良好，OpenAI 产生巨额收入------都验证了这个配方有效

马太效应

上下文（Context）：决定胜负

上下文（Context）或智能体所处的环境，是决定技术进步速度和价值归属的关键因素。

验证性反馈循环的重要性：

代码编写：高度可验证 → 单元测试通过/失败
材料科学：高度可验证 → 实验结果可测量
美学/创意写作：难以验证 → 模型表现不佳

上下文之争

案例 1：Windsurf 收购事件

约一年前，OpenAI 试图收购编码工具 Windsurf
紧接着，Anthropic 切断了 Windsurf 的模型访问权限
分析：如果竞争对手需要你的模型，可以通过观察你如何帮助客户来提炼洞察------这是上下文泄漏（Context Leakage）

观点：

在哪里上下文可以被可靠地测量和验证，哪里就是前沿进步最快的地方
哪个团队拥有独特且可防御的上下文访问权，哪个团队就能捕获最多价值

Mistral 与主权 AI（Sovereign AI）

背景：

Arthur Mensch（Chinchilla 论文主要作者）、Timothée Lacroix 等人在欧洲创立了 Mistral
理念：
1. 闭源模型会持续进步，因为编程等上下文"不太敏感"
2. 开发者愿意将软件工程上下文发送到云端
3. 但对于政府任务关键的工作负载（国家记录、国防等），需要本地部署
4. 需要在本地基础设施上运行的可控模型和权重

云法案（Cloud Act）与地缘政治

Cloud Act 是什么：

美国政策规定：如果你在美国公司运营的服务器上运行工作负载，无论服务器位于何处，美国政府都有权访问该数据
对全球某些用户来说，这是不可接受的

主权 AI 的兴起：

AI 工作负载已从"聊天机器人助手"升级为任务关键系统
RL 在任务关键上下文中的精确度和准确性使这一变化成为可能
这解释了为什么：
- 马克龙总统与黄仁勋（Jensen Huang）在巴黎同台
- 33 岁的科学家站在世界首富身边讨论欧洲的未来

战略意义：

主权 AI 正在打破云服务寡头垄断（AWS、GCP、Azure）
初创公司有机会参与这场基础设施重构

递归式自我进化系统

当飞轮运转良好到一定程度时，它们开始自我驱动：

"最终，当这些飞轮足够好时，它们开始自我推进。这就是许多人所说的通向 AGI 或 ASI 的道路。"

观点：

从基础设施角度思考，递归自我改进不一定指"超级智能模型"
可以是一个公司作为执行团队找到如何持续递归改进自己的方式
攻击艺术状态的任务，而不仅仅是个别模型或 API

强化学习的局限

两个对立观点：

1. 哲学观点（乐观派）：

给了正确的上下文和足够的算力后，智能体应该能学习任何东西
到了某个临界点，只需要让编码智能体"自己构建材料科学环境，然后自己做 RL 循环"

2. 经验观点（倾向）：

生活是混乱的
进步在容易验证的领域最快
RL 不一定在任务分布之外泛化
从编程到材料科学、生物学等领域的迁移尚不明确
在编程的窄分布内看到的是无情进步，似乎不会停止

难以验证的领域（审美/创意）：

模型在长篇写作、创意写作方面表现不佳
会产生陈词滥调、使用不恰当的破折号
Anthropic 团队内部规则：不互相发送 AI 生成的文档

3Blue1Brown

背景：Grant Sanderson 是课程讲师本科时期的室友

核心洞察：

Grant 的独特之处在于他的品味（taste） ------如何解构技术主题并从第一性原理理解
真正的前沿研究魔法 ：将某个领域世界级专家的洞察提炼出来，并与世界分享(!传播是一个重要的技能!)
RL 只是众多技术之一，未来会发明更多技术

建议：

寻找自己独特的、只有你能验证的前沿领域
利用你的痴迷、热爱、品味、文化差异
当有团队来寻求投资时，核心问题往往是：你们能为人类验证什么独特的艺术？

算力经济学：规模法则遇上市场规律

收入与算力的相关性

关键数据（Anthropic 公司案例）：

复制代码

┌────────────────────────────────────────────────────────┐
│ 图表：Anthropic 收入 vs 算力投入                         │
│                                                        │
│ 观察：每当公司引入新算力，约 60-90 天后：                  │
│ ├── 能力跃升                                           │
│ └── 收入跃升                                           │
│                                                        │
│ 财务意义：                                             │
│ ├── 输入：算力 = 硬资产（土地、电力、壳体）               │
│ │         金融市场通常按 3-4 倍收入估值                  │
│ └── 输出：软件收入                                      │
│           通常按 30-40 倍收入估值                        │
│                                                        │
│ 结果：从系统角度看，我们开发了一种可预测的方式，          │
│       将 1 个输入转化为另一个------                         │
│       产出价值约是投入的 10 倍                          │
└────────────────────────────────────────────────────────┘

GitHub Copilot 的真实使用数据

Cloud Code 提交数据：

智能体在 GitHub 上公开进行的提交
与算力建设规模完美相关
不仅仅是收入增长，这是真实使用的证据
趋势过去 4 年相当可靠

大转型：基础设施热潮

数据中心的疯狂投入

关键事件：当这种可预测的规模扩展（不仅是能力，还包括收入）被资本市场认可后，一切发生了变化。

五大科技公司资本支出计划：

时间	资本支出 (Capex)
过去 30 年总和	与最近 3 年相当
去年	$3000 亿
今年	$6000 亿
明年	$1.2 万亿

企业名单：Amazon, Google, Microsoft, Meta 等

GPU 价格走势图

H100 价格历史（关键数据）：

时间点	价格趋势
约两年前（课程录制时）	~$1.73/小时（平均租金）
H100 发布后	价格下降
2024 年 8 月后	持续上涨
现在	再次回升高位

课程观点：任何告诉你"芯片是商品"的人可能需要重新审视他们的假设。

实际案例：一位刚融资 $7-10 亿的创始人当天早上发来消息：

"Anj，我们正处于算力紧张期。需要 H100，越快越好。价格不是问题。"

基础设施周期：历史视角

历史上反复出现的模式

课程认为我们正在经历与过去基础设施繁荣相似的周期：

复制代码

繁荣期（Golden Age/Gilded Age）
    ↓
囤积（Hoarding）
    ↓
恐慌（Panic）
    ↓
价格崩溃
    ↓
市场调整
    ↓
稳定化（Stabilization）

具体案例

1. 钢铁（1867-1895）

价格先是上涨（1873 年恐慌期间囤积）
然后崩溃（"我们囤积了太多钢铁"）
最终稳定化

2. 光纤_optics

Cisco、Lucent、Nortel、Worldcom 等公司泡沫
经济学家和评论家看到相同数据后宣称"泡沫"

3. DRAM / 半导体

DM 被发明，人们认识到这对个人计算的重要性
开始囤积
某些事件（通常是无关紧要的事件）触发恐慌
导致自我应验的抛售
随后要么再次上涨，要么稳定

4. 波罗的海干散货指数（航运）

同样模式

5. 铀（1970 年代核能繁荣）

需要政府干预来稳定

当前周期分析

AI 基础设施的特殊性

关键差异：AI 规模扩展结合了：

物理资源：土地、电力、壳体、芯片（原子级别）
数字产品：软件收入、Intelligence（比特级别）

"这两个世界不喜欢碰撞。这就是新鲜之处，正在扰乱和困惑很多人------我们如何以稳定、可靠的方式协调这两者？"

周期时间线

基础设施类型	周期长度
数字基础设施（互联网、带宽）	~2.8 年
物理基础设施	~6.3 年
AI（预测）	需要同时处理物理和数字组件

算力尚未具备通用性

问题：计算是商品吗？

论点：不是，至少现在还不是。

商品化的必要条件

根据经济学定义，商品需要满足以下条件才能 fungible（可互换）：

条件	定义	当前状态
Common Unit	通用单位	❌
Standard Delivery Interface	标准交付接口	❌
Interconnection and Pooling	互联与聚合	❌
Metering, Control, Settlement	计量、控制、结算	❌
Substitutability	买方可用一个供应商的单元替代另一个	❌

问题

问题 1：算力不可互换（Fungibility）

不同公司芯片不可互换（AMD vs Nvidia）
同一制造商芯片不可互换：H100 ≠ GB200 ≠ B300

问题 2：微观算力预测极其困难

与电力不同（75 年稳定预测），我们无法稳定预测算力需求
训练是"尖峰式"需求：
- 算法在小规模测试
- 成功后进行英雄式训练运行（需要大量资源）
推理是周期性的：
- 美国用户在白天使用，晚上不用

问题 3：囤积周期正在发生

大公司正在尽可能多地购买土地、电力、壳体
他们发现了一个可靠的交易：硬件 → 软件收入
不确定哪个研究/模型/突破会实现，但"不如全部买下"

商品化的路径

两个必要条件

从历史上看，将稀缺、垄断的生产资源转变为可访问的商品需要：

1. 技术标准（Technical Standards）

如 ADC、TCP/IP
行业定期集会，商定："这是基础设施，应该是稳定的。让我们都同意一个标准。"

2. 机构来执行这些标准（Institutions to Enforce）

因为人在某些规模上必然存在利益分歧
需要协调和引导人类采用这些标准

当前阶段

我们正处于算力的"前标准化时代"

回顾历史：

铁路标准化（1886）
电气化（1907）
电话
航空
互联网
半导体

每种通用新技术都经历了：

巨大的基础设施需求爆发
通常由 3-4 个玩家 consolidation
有时行业自我监管并制定标准
有时政府/机构介入制定标准

我们现在正处于这样的历史时刻，对于算力来说。

思考

如何确保算力在未来几年内实现平稳过渡？
你在这个转变中扮演什么角色？

建议

不要只把自己当作学生，而要当作积极参与者
可以博客、推特、写作，与世界分享你认为应该出现的标准
你的声音可以帮助 evangelize 这些标准、采用它们、协调它们
在这个房间里的人将会运营许多机构，他们可以帮助实现这些

GPU 价格快照

H100

参数	值
发布时间	2022 年 6 月
两年前租金	~$1.73/小时
当前趋势	持续上涨

RTX 5090 （消费者级）

去年作为最佳项目大奖
Jensen 亲自签名了 5 张 RTX 5090
当时是游戏级芯片
现在价格已经相当高

附录

英文	解释
Context Feedback Loop	上下文反馈循环：观察智能体表现并用于改进的系统
Reinforcement Learning (RL)	强化学习：成功完成给任务获得奖励的机器学习方法
Sovereign AI	主权 AI：数据留在本国、由本国控制的 AI 系统
Fungibility	可互换性：一种商品可以被另一种相同商品替代的程度
Cloud Act	云法案：美国法规，允许政府访问美国公司运营的服务器数据
Mid-training	中训练：在预训练后添加更多能力的训练阶段
Continuous Post-training	持续后训练：包括 SFT 和 RL 的持续训练
Frontier Flywheel	前沿飞轮：收入→更多算力→更强能力→更多收入的正循环

课程预告

嘉宾	公司	内容
Jensen Huang, Lisa Su	Nvidia/AMD	芯片层
Saama	Microsoft	云服务层
Sam Altman	OpenAI	模型与部署
Anthropic 团队成员	Anthropic	RL 前沿
3Blue1Brown (Grant Sanderson)	-	教育与品味
Arthur Mensch	Mistral	欧洲 AI 视角