[CS153]AI基础设施与技术栈

  • 讲师:Anjney Midha(Ange)

    • 公司: AnthropicPeriodic Labs
    • Twitter handle: @anja_midha
  • 课程名称从 "Security at Scale" 和 "Infrastructure at Scale" 演变为 "Frontier Systems"

  • 课程目标:为现实世界做准备


AI 技术栈

核心框架-分层技术栈

复制代码
┌─────────────────────────────────────────────┐
│              治理与监管 (Governance)          │
├─────────────────────────────────────────────┤
│           应用与解决方案 (Applications)         │
├─────────────────────────────────────────────┤
│            模型与智能体 (Models/Agents)       │
├─────────────────────────────────────────────┤
│              云与软件基础设施 (Cloud)          │
├─────────────────────────────────────────────┤
│              芯片 (Chips)                     │
├─────────────────────────────────────────────┤
│         数据中心:土地、电力、壳体              │
├─────────────────────────────────────────────┤
│               资本 (Capital)                 │
└─────────────────────────────────────────────┘
层级 说明 代表
资本 高度灵活,可以投向任何地方 -
物理基础设施 土地、电力、数据中心建设 Jensen Huang, Lisa Su
芯片 GPU、TPU 等计算芯片 -
云服务 使芯片可用的软件基础设施 Saama 和 Azure (Microsoft)
模型/智能体 训练后的模型,用于推理 Sam Altman (OpenAI)
应用 部署在真实世界的解决方案 -
治理 安全、安全性、信任框架 -

深度学习工业化

制造智能

公式计算(Compute)+ 数据(Data)+ 算法(Algorithms)

流程(四年前的"精制工艺" vs 现在的工业规模):

复制代码
过去(2019-2020年):每年1-2次新模型
现在:
├── 预训练 (Pretraining):每年至少2次,每次 ~100,000 GB200 等效算力
├── 中训练 (Mid-training):每年2-4次,每次 ~10% 预训练算力
└── 持续后训练 (Continuous Post-training):SFT + RL
    └── 最新发展:RL部分消耗的算力几乎与其他所有步骤总和相当

AI 研发已经从手工定制流程转变为工业化工程流程


强化学习与上下文的重要性

强化学习

课程内容:

  • 当你训练宠物或教弟弟妹妹远离你房间时,你就是在应用强化学习
  • 关键思想:
    1. 不告诉智能体如何完成任务
    2. 只告诉它做什么任务
    3. 成功完成 → 给予奖励
    4. 未完成 → 保留奖励(惩罚)
    5. 重复迭代

强化学习的新突破

  • 过去 70 年 RL 在不同领域(象棋、围棋等)超越人类后会迅速趋于平稳
  • 当用 LLM 初始化 RL 环境时,模型具备足够的世界先验知识
  • 结果:学习速度更快,能力随算力增加持续扩展
  • 这一突破大约在 2 年前(2023年)开始真正规模化运作

飞轮模型(Scaling Flywheel)

课程反复强调的核心商业模式:

复制代码
┌──────────────┐
│  1. 筹集资金  │
└──────┬───────┘
       ▼
┌──────────────┐
│  2. 购买算力  │
└──────┬───────┘
       ▼
┌──────────────┐
│  3. 预训练模型│
└──────┬───────┘
       ▼
┌──────────────┐
│  4. 部署推理  │◄──────────────┐
└──────┬───────┘               │
       ▼                       │
┌──────────────┐              │
│  5. 获取收入  │              │
└──────┬───────┘              │
       ▼                       │
┌──────────────────┐           │
│  6. 上下文反馈循环│───────────┘
│  (Context Loop)   │
└──────────────────┘

上下文反馈循环的具体例子(以编程助手为例):

  • 用户使用模型完成编程任务
  • 系统观察模型何时成功/失败
  • 获取用户的 monkey 或 git 历史、本地文件
  • 将这些上下文反馈通过 RL 管道传回
  • 重复成百上千次,持续改进模型在该领域的能力

案例:Anthropic 从 9 亿美元增长到 200 亿美元收入,Gemini 表现良好,OpenAI 产生巨额收入------都验证了这个配方有效

马太效应


上下文(Context):决定胜负

上下文(Context)或智能体所处的环境,是决定技术进步速度和价值归属的关键因素。

验证性反馈循环的重要性

  • 代码编写:高度可验证 → 单元测试通过/失败
  • 材料科学:高度可验证 → 实验结果可测量
  • 美学/创意写作:难以验证 → 模型表现不佳

上下文之争

案例 1:Windsurf 收购事件

  • 约一年前,OpenAI 试图收购编码工具 Windsurf
  • 紧接着,Anthropic 切断了 Windsurf 的模型访问权限
  • 分析 :如果竞争对手需要你的模型,可以通过观察你如何帮助客户来提炼洞察------这是上下文泄漏(Context Leakage)

观点

  • 在哪里上下文可以被可靠地测量和验证,哪里就是前沿进步最快的地方
  • 哪个团队拥有独特且可防御的上下文访问权,哪个团队就能捕获最多价值

Mistral 与主权 AI(Sovereign AI)

背景

  • Arthur Mensch(Chinchilla 论文主要作者)、Timothée Lacroix 等人在欧洲创立了 Mistral
  • 理念:
    1. 闭源模型会持续进步,因为编程等上下文"不太敏感"
    2. 开发者愿意将软件工程上下文发送到云端
    3. 但对于政府任务关键的工作负载(国家记录、国防等),需要本地部署
    4. 需要在本地基础设施上运行的可控模型和权重

云法案(Cloud Act)与地缘政治

Cloud Act 是什么

  • 美国政策规定:如果你在美国公司运营的服务器上运行工作负载,无论服务器位于何处,美国政府都有权访问该数据
  • 对全球某些用户来说,这是不可接受的

主权 AI 的兴起

  • AI 工作负载已从"聊天机器人助手"升级为任务关键系统
  • RL 在任务关键上下文中的精确度和准确性使这一变化成为可能
  • 这解释了为什么:
    • 马克龙总统与黄仁勋(Jensen Huang)在巴黎同台
    • 33 岁的科学家站在世界首富身边讨论欧洲的未来

战略意义

  • 主权 AI 正在打破云服务寡头垄断(AWS、GCP、Azure)
  • 初创公司有机会参与这场基础设施重构

递归式自我进化系统

当飞轮运转良好到一定程度时,它们开始自我驱动:

"最终,当这些飞轮足够好时,它们开始自我推进。这就是许多人所说的通向 AGI 或 ASI 的道路。"

观点

  • 从基础设施角度思考,递归自我改进不一定指"超级智能模型"
  • 可以是一个公司作为执行团队找到如何持续递归改进自己的方式
  • 攻击艺术状态的任务,而不仅仅是个别模型或 API

强化学习的局限

两个对立观点

1. 哲学观点(乐观派)

  • 给了正确的上下文和足够的算力后,智能体应该能学习任何东西
  • 到了某个临界点,只需要让编码智能体"自己构建材料科学环境,然后自己做 RL 循环"

2. 经验观点(倾向)

  • 生活是混乱的
  • 进步在容易验证的领域最快
  • RL 不一定在任务分布之外泛化
  • 从编程到材料科学、生物学等领域的迁移尚不明确
  • 在编程的窄分布内看到的是无情进步,似乎不会停止

难以验证的领域(审美/创意)

  • 模型在长篇写作、创意写作方面表现不佳
  • 会产生陈词滥调、使用不恰当的破折号
  • Anthropic 团队内部规则:不互相发送 AI 生成的文档

3Blue1Brown

背景:Grant Sanderson 是课程讲师本科时期的室友

核心洞察

  • Grant 的独特之处在于他的品味(taste) ------如何解构技术主题并从第一性原理理解
  • 真正的前沿研究魔法 :将某个领域世界级专家的洞察提炼出来,并与世界分享(!传播是一个重要的技能!)
  • RL 只是众多技术之一,未来会发明更多技术

建议

  • 寻找自己独特的、只有你能验证的前沿领域
  • 利用你的痴迷、热爱、品味、文化差异
  • 当有团队来寻求投资时,核心问题往往是:你们能为人类验证什么独特的艺术

算力经济学:规模法则遇上市场规律

收入与算力的相关性

关键数据(Anthropic 公司案例):

复制代码
┌────────────────────────────────────────────────────────┐
│ 图表:Anthropic 收入 vs 算力投入                         │
│                                                        │
│ 观察:每当公司引入新算力,约 60-90 天后:                  │
│ ├── 能力跃升                                           │
│ └── 收入跃升                                           │
│                                                        │
│ 财务意义:                                             │
│ ├── 输入:算力 = 硬资产(土地、电力、壳体)               │
│ │         金融市场通常按 3-4 倍收入估值                  │
│ └── 输出:软件收入                                      │
│           通常按 30-40 倍收入估值                        │
│                                                        │
│ 结果:从系统角度看,我们开发了一种可预测的方式,          │
│       将 1 个输入转化为另一个------                         │
│       产出价值约是投入的 10 倍                          │
└────────────────────────────────────────────────────────┘

GitHub Copilot 的真实使用数据

Cloud Code 提交数据

  • 智能体在 GitHub 上公开进行的提交
  • 与算力建设规模完美相关
  • 不仅仅是收入增长,这是真实使用的证据
  • 趋势过去 4 年相当可靠

大转型:基础设施热潮

数据中心的疯狂投入

关键事件:当这种可预测的规模扩展(不仅是能力,还包括收入)被资本市场认可后,一切发生了变化。

五大科技公司资本支出计划

时间 资本支出 (Capex)
过去 30 年总和 与最近 3 年相当
去年 $3000 亿
今年 $6000 亿
明年 $1.2 万亿

企业名单:Amazon, Google, Microsoft, Meta 等

GPU 价格走势图

H100 价格历史(关键数据):

时间点 价格趋势
约两年前(课程录制时) ~$1.73/小时(平均租金)
H100 发布后 价格下降
2024 年 8 月后 持续上涨
现在 再次回升高位

课程观点:任何告诉你"芯片是商品"的人可能需要重新审视他们的假设。

实际案例:一位刚融资 $7-10 亿的创始人当天早上发来消息:

"Anj,我们正处于算力紧张期。需要 H100,越快越好。价格不是问题。"


基础设施周期:历史视角

历史上反复出现的模式

课程认为我们正在经历与过去基础设施繁荣相似的周期:

复制代码
繁荣期(Golden Age/Gilded Age)
    ↓
囤积(Hoarding)
    ↓
恐慌(Panic)
    ↓
价格崩溃
    ↓
市场调整
    ↓
稳定化(Stabilization)

具体案例

1. 钢铁(1867-1895)

  • 价格先是上涨(1873 年恐慌期间囤积)
  • 然后崩溃("我们囤积了太多钢铁")
  • 最终稳定化

2. 光纤_optics

  • Cisco、Lucent、Nortel、Worldcom 等公司泡沫
  • 经济学家和评论家看到相同数据后宣称"泡沫"

3. DRAM / 半导体

  • DM 被发明,人们认识到这对个人计算的重要性
  • 开始囤积
  • 某些事件(通常是无关紧要的事件)触发恐慌
  • 导致自我应验的抛售
  • 随后要么再次上涨,要么稳定

4. 波罗的海干散货指数(航运)

  • 同样模式

5. 铀(1970 年代核能繁荣)

  • 需要政府干预来稳定

当前周期分析

AI 基础设施的特殊性

关键差异:AI 规模扩展结合了:

  • 物理资源:土地、电力、壳体、芯片(原子级别)
  • 数字产品:软件收入、Intelligence(比特级别)

"这两个世界不喜欢碰撞。这就是新鲜之处,正在扰乱和困惑很多人------我们如何以稳定、可靠的方式协调这两者?"

周期时间线

基础设施类型 周期长度
数字基础设施(互联网、带宽) ~2.8 年
物理基础设施 ~6.3 年
AI(预测) 需要同时处理物理和数字组件

算力尚未具备通用性

问题:计算是商品吗?

论点不是,至少现在还不是。

商品化的必要条件

根据经济学定义,商品需要满足以下条件才能 fungible(可互换):

条件 定义 当前状态
Common Unit 通用单位
Standard Delivery Interface 标准交付接口
Interconnection and Pooling 互联与聚合
Metering, Control, Settlement 计量、控制、结算
Substitutability 买方可用一个供应商的单元替代另一个

问题

问题 1:算力不可互换(Fungibility)

  • 不同公司芯片不可互换(AMD vs Nvidia)
  • 同一制造商芯片不可互换:H100 ≠ GB200 ≠ B300

问题 2:微观算力预测极其困难

  • 与电力不同(75 年稳定预测),我们无法稳定预测算力需求
  • 训练是"尖峰式"需求:
    • 算法在小规模测试
    • 成功后进行英雄式训练运行(需要大量资源)
  • 推理是周期性的:
    • 美国用户在白天使用,晚上不用

问题 3:囤积周期正在发生

  • 大公司正在尽可能多地购买土地、电力、壳体
  • 他们发现了一个可靠的交易:硬件 → 软件收入
  • 不确定哪个研究/模型/突破会实现,但"不如全部买下"

商品化的路径

两个必要条件

从历史上看,将稀缺、垄断的生产资源转变为可访问的商品需要:

1. 技术标准(Technical Standards)

  • 如 ADC、TCP/IP
  • 行业定期集会,商定:"这是基础设施,应该是稳定的。让我们都同意一个标准。"

2. 机构来执行这些标准(Institutions to Enforce)

  • 因为人在某些规模上必然存在利益分歧
  • 需要协调和引导人类采用这些标准

当前阶段

我们正处于算力的"前标准化时代"

回顾历史:

  • 铁路标准化(1886)
  • 电气化(1907)
  • 电话
  • 航空
  • 互联网
  • 半导体

每种通用新技术都经历了:

  1. 巨大的基础设施需求爆发
  2. 通常由 3-4 个玩家 consolidation
  3. 有时行业自我监管并制定标准
  4. 有时政府/机构介入制定标准

我们现在正处于这样的历史时刻,对于算力来说。


思考

  1. 如何确保算力在未来几年内实现平稳过渡?
  2. 你在这个转变中扮演什么角色?

建议

  • 不要只把自己当作学生,而要当作积极参与者
  • 可以博客、推特、写作,与世界分享你认为应该出现的标准
  • 你的声音可以帮助 evangelize 这些标准、采用它们、协调它们
  • 在这个房间里的人将会运营许多机构,他们可以帮助实现这些

GPU 价格快照

H100

参数
发布时间 2022 年 6 月
两年前租金 ~$1.73/小时
当前趋势 持续上涨

RTX 5090 (消费者级)

  • 去年作为最佳项目大奖
  • Jensen 亲自签名了 5 张 RTX 5090
  • 当时是游戏级芯片
  • 现在价格已经相当高

附录

英文 解释
Context Feedback Loop 上下文反馈循环:观察智能体表现并用于改进的系统
Reinforcement Learning (RL) 强化学习:成功完成给任务获得奖励的机器学习方法
Sovereign AI 主权 AI:数据留在本国、由本国控制的 AI 系统
Fungibility 可互换性:一种商品可以被另一种相同商品替代的程度
Cloud Act 云法案:美国法规,允许政府访问美国公司运营的服务器数据
Mid-training 中训练:在预训练后添加更多能力的训练阶段
Continuous Post-training 持续后训练:包括 SFT 和 RL 的持续训练
Frontier Flywheel 前沿飞轮:收入→更多算力→更强能力→更多收入的正循环

课程预告

嘉宾 公司 内容
Jensen Huang, Lisa Su Nvidia/AMD 芯片层
Saama Microsoft 云服务层
Sam Altman OpenAI 模型与部署
Anthropic 团队成员 Anthropic RL 前沿
3Blue1Brown (Grant Sanderson) - 教育与品味
Arthur Mensch Mistral 欧洲 AI 视角
相关推荐
量子-Alex2 小时前
【大模型智能体】AutoFlow:大型语言模型代理的自动化工作流生成
人工智能·语言模型·自动化
Wzx1980122 小时前
cozen平台开发智能体
人工智能
GISer_Jing2 小时前
AI原生前端工程化进阶实践:从流式交互架构到端云协同全链路落地
前端·人工智能·后端·学习
EnCi Zheng2 小时前
03ab-PyTorch安装教程 [特殊字符]
人工智能·pytorch·python
SmartBrain2 小时前
从Prompt工程到Harness工程:AI Agent落地之路
人工智能·python·华为·aigc
科技小花9 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng10 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰10 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_3709763510 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi