-
讲师:Anjney Midha(Ange)
- 公司: Anthropic 和 Periodic Labs
- Twitter handle:
@anja_midha
-
课程名称从 "Security at Scale" 和 "Infrastructure at Scale" 演变为 "Frontier Systems"
-
课程目标:为现实世界做准备
AI 技术栈
核心框架-分层技术栈:
┌─────────────────────────────────────────────┐
│ 治理与监管 (Governance) │
├─────────────────────────────────────────────┤
│ 应用与解决方案 (Applications) │
├─────────────────────────────────────────────┤
│ 模型与智能体 (Models/Agents) │
├─────────────────────────────────────────────┤
│ 云与软件基础设施 (Cloud) │
├─────────────────────────────────────────────┤
│ 芯片 (Chips) │
├─────────────────────────────────────────────┤
│ 数据中心:土地、电力、壳体 │
├─────────────────────────────────────────────┤
│ 资本 (Capital) │
└─────────────────────────────────────────────┘
| 层级 | 说明 | 代表 |
|---|---|---|
| 资本 | 高度灵活,可以投向任何地方 | - |
| 物理基础设施 | 土地、电力、数据中心建设 | Jensen Huang, Lisa Su |
| 芯片 | GPU、TPU 等计算芯片 | - |
| 云服务 | 使芯片可用的软件基础设施 | Saama 和 Azure (Microsoft) |
| 模型/智能体 | 训练后的模型,用于推理 | Sam Altman (OpenAI) |
| 应用 | 部署在真实世界的解决方案 | - |
| 治理 | 安全、安全性、信任框架 | - |
深度学习工业化
制造智能
公式 :计算(Compute)+ 数据(Data)+ 算法(Algorithms)
流程(四年前的"精制工艺" vs 现在的工业规模):
过去(2019-2020年):每年1-2次新模型
现在:
├── 预训练 (Pretraining):每年至少2次,每次 ~100,000 GB200 等效算力
├── 中训练 (Mid-training):每年2-4次,每次 ~10% 预训练算力
└── 持续后训练 (Continuous Post-training):SFT + RL
└── 最新发展:RL部分消耗的算力几乎与其他所有步骤总和相当
AI 研发已经从手工定制流程转变为工业化工程流程。
强化学习与上下文的重要性
强化学习
课程内容:
- 当你训练宠物或教弟弟妹妹远离你房间时,你就是在应用强化学习
- 关键思想:
- 不告诉智能体如何完成任务
- 只告诉它做什么任务
成功完成 → 给予奖励未完成 → 保留奖励(惩罚)- 重复迭代
强化学习的新突破:
- 过去 70 年 RL 在不同领域(象棋、围棋等)超越人类后会迅速趋于平稳
- 当用 LLM 初始化 RL 环境时,模型具备足够的世界先验知识
- 结果:学习速度更快,能力随算力增加持续扩展
- 这一突破大约在 2 年前(2023年)开始真正规模化运作
飞轮模型(Scaling Flywheel)
课程反复强调的核心商业模式:
┌──────────────┐
│ 1. 筹集资金 │
└──────┬───────┘
▼
┌──────────────┐
│ 2. 购买算力 │
└──────┬───────┘
▼
┌──────────────┐
│ 3. 预训练模型│
└──────┬───────┘
▼
┌──────────────┐
│ 4. 部署推理 │◄──────────────┐
└──────┬───────┘ │
▼ │
┌──────────────┐ │
│ 5. 获取收入 │ │
└──────┬───────┘ │
▼ │
┌──────────────────┐ │
│ 6. 上下文反馈循环│───────────┘
│ (Context Loop) │
└──────────────────┘
上下文反馈循环的具体例子(以编程助手为例):
- 用户使用模型完成编程任务
- 系统观察模型何时成功/失败
- 获取用户的 monkey 或 git 历史、本地文件
- 将这些上下文反馈通过 RL 管道传回
重复成百上千次,持续改进模型在该领域的能力
案例:Anthropic 从 9 亿美元增长到 200 亿美元收入,Gemini 表现良好,OpenAI 产生巨额收入------都验证了这个配方有效
马太效应
上下文(Context):决定胜负
上下文(Context)或智能体所处的环境,是决定技术进步速度和价值归属的关键因素。
验证性反馈循环的重要性:
- 代码编写:高度可验证 → 单元测试通过/失败
- 材料科学:高度可验证 → 实验结果可测量
- 美学/创意写作:难以验证 → 模型表现不佳
上下文之争
案例 1:Windsurf 收购事件
- 约一年前,OpenAI 试图收购编码工具 Windsurf
- 紧接着,Anthropic 切断了 Windsurf 的模型访问权限
- 分析 :如果竞争对手需要你的模型,可以通过观察你如何帮助客户来提炼洞察------这是上下文泄漏(Context Leakage)
观点:
- 在哪里上下文可以被可靠地测量和验证,哪里就是前沿进步最快的地方
- 哪个团队拥有独特且可防御的上下文访问权,哪个团队就能捕获最多价值
Mistral 与主权 AI(Sovereign AI)
背景:
- Arthur Mensch(Chinchilla 论文主要作者)、Timothée Lacroix 等人在欧洲创立了 Mistral
- 理念:
- 闭源模型会持续进步,因为编程等上下文"不太敏感"
- 开发者愿意将软件工程上下文发送到云端
- 但对于政府任务关键的工作负载(国家记录、国防等),需要本地部署
- 需要在本地基础设施上运行的可控模型和权重
云法案(Cloud Act)与地缘政治
Cloud Act 是什么:
- 美国政策规定:如果你在美国公司运营的服务器上运行工作负载,无论服务器位于何处,美国政府都有权访问该数据
- 对全球某些用户来说,这是不可接受的
主权 AI 的兴起:
- AI 工作负载已从"聊天机器人助手"升级为任务关键系统
- RL 在任务关键上下文中的精确度和准确性使这一变化成为可能
- 这解释了为什么:
- 马克龙总统与黄仁勋(Jensen Huang)在巴黎同台
- 33 岁的科学家站在世界首富身边讨论欧洲的未来
战略意义:
主权 AI 正在打破云服务寡头垄断(AWS、GCP、Azure)- 初创公司有机会参与这场基础设施重构
递归式自我进化系统
当飞轮运转良好到一定程度时,它们开始自我驱动:
"最终,
当这些飞轮足够好时,它们开始自我推进。这就是许多人所说的通向 AGI 或 ASI 的道路。"
观点:
- 从基础设施角度思考,递归自我改进不一定指"超级智能模型"
- 可以是一个公司作为执行团队找到如何
持续递归改进自己的方式 - 攻击艺术状态的任务,而不仅仅是个别模型或 API
强化学习的局限
两个对立观点:
1. 哲学观点(乐观派):
- 给了正确的上下文和足够的算力后,智能体应该能学习任何东西
- 到了某个临界点,
只需要让编码智能体"自己构建材料科学环境,然后自己做 RL 循环"
2. 经验观点(倾向):
生活是混乱的- 进步在容易验证的领域最快
- RL 不一定在任务分布之外泛化
- 从编程到材料科学、生物学等领域的迁移尚不明确
- 在编程的窄分布内看到的是无情进步,似乎不会停止
难以验证的领域(审美/创意):
- 模型在长篇写作、创意写作方面表现不佳
- 会产生陈词滥调、使用不恰当的破折号
- Anthropic 团队内部规则:
不互相发送 AI 生成的文档
3Blue1Brown
背景:Grant Sanderson 是课程讲师本科时期的室友
核心洞察:
- Grant 的独特之处在于他的品味(taste) ------如何解构技术主题并从第一性原理理解
- 真正的前沿研究魔法 :将某个领域世界级专家的洞察提炼出来,并与世界分享(!传播是一个重要的技能!)
- RL 只是众多技术之一,未来会发明更多技术
建议:
- 寻找自己独特的、只有你能验证的前沿领域
- 利用你的痴迷、热爱、品味、文化差异
- 当有团队来寻求投资时,核心问题往往是:
你们能为人类验证什么独特的艺术?
算力经济学:规模法则遇上市场规律
收入与算力的相关性
关键数据(Anthropic 公司案例):
┌────────────────────────────────────────────────────────┐
│ 图表:Anthropic 收入 vs 算力投入 │
│ │
│ 观察:每当公司引入新算力,约 60-90 天后: │
│ ├── 能力跃升 │
│ └── 收入跃升 │
│ │
│ 财务意义: │
│ ├── 输入:算力 = 硬资产(土地、电力、壳体) │
│ │ 金融市场通常按 3-4 倍收入估值 │
│ └── 输出:软件收入 │
│ 通常按 30-40 倍收入估值 │
│ │
│ 结果:从系统角度看,我们开发了一种可预测的方式, │
│ 将 1 个输入转化为另一个------ │
│ 产出价值约是投入的 10 倍 │
└────────────────────────────────────────────────────────┘
GitHub Copilot 的真实使用数据
Cloud Code 提交数据:
- 智能体在 GitHub 上公开进行的提交
- 与算力建设规模完美相关
- 不仅仅是收入增长,这是真实使用的证据
- 趋势过去 4 年相当可靠
大转型:基础设施热潮
数据中心的疯狂投入
关键事件:当这种可预测的规模扩展(不仅是能力,还包括收入)被资本市场认可后,一切发生了变化。
五大科技公司资本支出计划:
| 时间 | 资本支出 (Capex) |
|---|---|
| 过去 30 年总和 | 与最近 3 年相当 |
| 去年 | $3000 亿 |
| 今年 | $6000 亿 |
| 明年 | $1.2 万亿 |
企业名单:Amazon, Google, Microsoft, Meta 等
GPU 价格走势图
H100 价格历史(关键数据):
| 时间点 | 价格趋势 |
|---|---|
| 约两年前(课程录制时) | ~$1.73/小时(平均租金) |
| H100 发布后 | 价格下降 |
| 2024 年 8 月后 | 持续上涨 |
| 现在 | 再次回升高位 |
课程观点:任何告诉你"芯片是商品"的人可能需要重新审视他们的假设。
实际案例:一位刚融资 $7-10 亿的创始人当天早上发来消息:
"Anj,我们正处于算力紧张期。需要 H100,越快越好。价格不是问题。"
基础设施周期:历史视角
历史上反复出现的模式
课程认为我们正在经历与过去基础设施繁荣相似的周期:
繁荣期(Golden Age/Gilded Age)
↓
囤积(Hoarding)
↓
恐慌(Panic)
↓
价格崩溃
↓
市场调整
↓
稳定化(Stabilization)
具体案例
1. 钢铁(1867-1895)
- 价格先是上涨(1873 年恐慌期间囤积)
- 然后崩溃("我们囤积了太多钢铁")
- 最终稳定化
2. 光纤_optics
- Cisco、Lucent、Nortel、Worldcom 等公司泡沫
- 经济学家和评论家看到相同数据后宣称"泡沫"
3. DRAM / 半导体
- DM 被发明,人们认识到这对个人计算的重要性
- 开始囤积
- 某些事件(通常是无关紧要的事件)触发恐慌
- 导致自我应验的抛售
- 随后要么再次上涨,要么稳定
4. 波罗的海干散货指数(航运)
- 同样模式
5. 铀(1970 年代核能繁荣)
- 需要政府干预来稳定
当前周期分析
AI 基础设施的特殊性
关键差异:AI 规模扩展结合了:
- 物理资源:土地、电力、壳体、芯片(原子级别)
- 数字产品:软件收入、Intelligence(比特级别)
"这两个世界不喜欢碰撞。这就是新鲜之处,正在扰乱和困惑很多人------我们如何以稳定、可靠的方式协调这两者?"
周期时间线
| 基础设施类型 | 周期长度 |
|---|---|
| 数字基础设施(互联网、带宽) | ~2.8 年 |
| 物理基础设施 | ~6.3 年 |
| AI(预测) | 需要同时处理物理和数字组件 |
算力尚未具备通用性
问题:计算是商品吗?
论点 :不是,至少现在还不是。
商品化的必要条件
根据经济学定义,商品需要满足以下条件才能 fungible(可互换):
| 条件 | 定义 | 当前状态 |
|---|---|---|
| Common Unit | 通用单位 | ❌ |
| Standard Delivery Interface | 标准交付接口 | ❌ |
| Interconnection and Pooling | 互联与聚合 | ❌ |
| Metering, Control, Settlement | 计量、控制、结算 | ❌ |
| Substitutability | 买方可用一个供应商的单元替代另一个 | ❌ |
问题
问题 1:算力不可互换(Fungibility)
- 不同公司芯片不可互换(AMD vs Nvidia)
- 同一制造商芯片不可互换:H100 ≠ GB200 ≠ B300
问题 2:微观算力预测极其困难
- 与电力不同(75 年稳定预测),我们无法稳定预测算力需求
- 训练是"尖峰式"需求:
- 算法在小规模测试
- 成功后进行英雄式训练运行(需要大量资源)
- 推理是周期性的:
- 美国用户在白天使用,晚上不用
问题 3:囤积周期正在发生
- 大公司正在尽可能多地购买土地、电力、壳体
- 他们发现了一个可靠的交易:硬件 → 软件收入
- 不确定哪个研究/模型/突破会实现,但"不如全部买下"
商品化的路径
两个必要条件
从历史上看,将稀缺、垄断的生产资源转变为可访问的商品需要:
1. 技术标准(Technical Standards)
- 如 ADC、
TCP/IP - 行业定期集会,商定:"这是基础设施,应该是稳定的。让我们都同意一个标准。"
2. 机构来执行这些标准(Institutions to Enforce)
- 因为人在某些规模上必然存在利益分歧
- 需要
协调和引导人类采用这些标准
当前阶段
我们正处于算力的"
前标准化时代"
回顾历史:
- 铁路标准化(1886)
- 电气化(1907)
- 电话
- 航空
- 互联网
- 半导体
每种通用新技术都经历了:
- 巨大的基础设施需求爆发
- 通常由 3-4 个玩家 consolidation
- 有时行业自我监管并制定标准
- 有时政府/机构介入制定标准
我们现在正处于这样的历史时刻,对于算力来说。
思考
- 如何确保算力在未来几年内实现平稳过渡?
- 你在这个转变中扮演什么角色?
建议
- 不要只把自己当作学生,而要当作积极参与者
- 可以博客、推特、
写作,与世界分享你认为应该出现的标准 - 你的声音可以帮助 evangelize 这些标准、采用它们、协调它们
- 在这个房间里的人将会运营许多机构,他们可以帮助实现这些
GPU 价格快照
H100
| 参数 | 值 |
|---|---|
| 发布时间 | 2022 年 6 月 |
| 两年前租金 | ~$1.73/小时 |
| 当前趋势 | 持续上涨 |
RTX 5090 (消费者级)
- 去年作为最佳项目大奖
- Jensen 亲自签名了 5 张 RTX 5090
- 当时是游戏级芯片
- 现在价格已经相当高
附录
| 英文 | 解释 |
|---|---|
| Context Feedback Loop | 上下文反馈循环:观察智能体表现并用于改进的系统 |
| Reinforcement Learning (RL) | 强化学习:成功完成给任务获得奖励的机器学习方法 |
| Sovereign AI | 主权 AI:数据留在本国、由本国控制的 AI 系统 |
| Fungibility | 可互换性:一种商品可以被另一种相同商品替代的程度 |
| Cloud Act | 云法案:美国法规,允许政府访问美国公司运营的服务器数据 |
| Mid-training | 中训练:在预训练后添加更多能力的训练阶段 |
| Continuous Post-training | 持续后训练:包括 SFT 和 RL 的持续训练 |
| Frontier Flywheel | 前沿飞轮:收入→更多算力→更强能力→更多收入的正循环 |
课程预告
| 嘉宾 | 公司 | 内容 |
|---|---|---|
| Jensen Huang, Lisa Su | Nvidia/AMD | 芯片层 |
| Saama | Microsoft | 云服务层 |
| Sam Altman | OpenAI | 模型与部署 |
| Anthropic 团队成员 | Anthropic | RL 前沿 |
| 3Blue1Brown (Grant Sanderson) | - | 教育与品味 |
| Arthur Mensch | Mistral | 欧洲 AI 视角 |