一、关键代码：

gemma.py 实现的是 Pi 模型里的"视觉语言模型"部分 ------负责：

处理图像 patch + 文本 token（来自 Paligemma）
和"动作专家"（action expert，在 pi0.py 里）做 Mixture-of-Experts 融合
输出给 Flow Matching 头（在 model.py 里）

关键设计：双专家 MoE

```

输入: $图像patch tokens \| 文本prompt tokens$ | $动作 tokens$

↓ ↓

PaliGemma expert (i=0) Action expert (i=1)

↓ ↓

Gemma-2B weights 从头/LoRA 训练

↓ ↓

输出 $B, T, D$ 输出 $B, T, D$

↓ ↓

融合给 Flow Matching 头

```

这就是代码里 configs: Sequence $Config$ 是列表的原因------每个专家有独立的 config、独立的权重。

二、核心模块分层

1. Config（L44-109）------ 5 种变体

variant width depth heads kv_heads mlp 用途 dummy 64 4 8 1 128 单元测试/调试 gemma_300m 1024 18 8 1 4096 轻量版 gemma_300m_lora 1024 18 8 1 4096 300M + LoRA(rank=32) gemma_2b 2048 18 8 1 16384 Pi 默认（PaliGemma 2B） gemma_2b_lora 2048 18 8 1 16384 2B + LoRA(rank=16)

LoRA 配置（L96-107）：同时对 attn 和 ffn 各挂一个 LoRA adapter，rank=16, alpha=16。

RMSNorm

这是 Pi 能做条件动作生成的关键------通过 AdaLN 把状态/指令/图像 embedding 注入到每层归一化里。

Embedder

vocab_size = 257_152（PaliGemma 的词表大小）。

Attention------ 多专家融合的核心

1. 每个专家独立做 QKV 投影

for i, (x, config) in enumerate(zip(xs, self.configs)):

qkv_einsum(x) # ← 每个专家自己的 Wq Wk Wv

2. concat 后一起做 self-attention

q, k, v = jnp.concatenate(y, axis=1) for y in zip(*qkvs)

所有专家的 token 在 token 维度拼接成一个长序列

一次 attention 就能跨专家通信！

3. 共享的 RoPE + MHA

q = _apply_rope(q, positions)

logits = einsum("BTKGH,BSKH->BKGTS", q, k, ...)

4. attention 后每个专家独立 output 投影

for i, (x, config) in enumerate(...):

out_einsum(encoded $start:end$ ) # ← 每个专家自己的 Wo

这就是 Mixture-of-Experts Transformer 的精髓：

专家前：每个 token 独立线性投影
专家间：一次 self-attention 跨所有专家 token 做信息交换
专家后：每个 token 独立线性投影回原维度

另外还支持 GQA（grouped-query attention）------当 num_kv_heads != num_heads 时 Q 和 KV 分开投影。

5. FeedForward

Gemma 用 SwiGLU，不是标准 ReLU FFN

ff_gate = x @ W_gate $0$ # gate 分支

ff1 = x @ W_gate $1$ # value 分支

activations = gelu(ff_gate) * ff1 # gate 调制 value

output = activations @ W_linear

Block

结构:

x → RMSNorm(adarms_cond) → Attention → gated residual

→ RMSNorm(adarms_cond) → SwiGLU FFN → gated residual

每步都有 sharding constraint（JAX 自动并行）

每步都有 adarms_cond 注入（AdaLN 条件生成）

gated_residual是标准/条件两种模式：

gate is None → x + y # 普通残差

gate 不为 None → x + y * gate # 条件门控残差

Module

Gemma 结构:

1. Embedder: token id → embedding (共享 vocab table)

2. 18 层 Block (Gemma-2B depth=18)

用 nn.scan 把所有层 scan 成一次 jit call（JAX 优化）

用 nn.remat 做 gradient checkpointing（省显存）

3. final RMSNorm（每专家独立）

4. AdaARM conditioning 注入到每层 RMSNorm

adarms_cond （条件注入）在 init() 能看清楚：

use_adarms 是每个专家是否启用 AdaARM 的开关

传入 $B, width$ 的 conditioning tensor（来自状态/指令）

每个专家独立：use_adarms $i$ =True 才传条件

三、关键特性总结

特性代码位置作用双专家 MoE L172-201, L233-248 PaliGemma + Action expert 一次 attention 跨专家通信多专家权重命名 L443-450 _name("attn", 0) → "attn" ， _name("attn", 1) → "attn_1" ，第一个专家权重名和官方 PaliGemma checkpoint 对齐，直接加载 AdaARM 条件注入 L112-131, L402-403, L413-421 状态/指令 embedding 通过 AdaLN 注入每层，实现条件动作生成 RoPE 位置编码 L424-440 标准旋转位置编码，支持变长序列 KV Cache L211-214 推理时缓存 KV，支持自回归生成 LoRA 适配器 L52, L96-107 可选 LoRA 挂到 attn 和 ffn，只训小部分参数 GQA 支持 L176-199 支持 grouped-query attention 加速推理 JAX sharding L294, L307, L310, L312 每层都有 activation sharding，支持多 GPU 并行

核心主干

一、一层 Block 里有几个 RMSNorm

看 Block. call ：

每层 Block 有 2 个 RMSNorm ：

pre_attention_norm （Attention 之前）
pre_ffw_norm （FeedForward 之前）

二、Pi 里有几层 Block

PaliGemma 2B 的 config（ gemma.py:L79-87 ）：

18 层 Block × 2 个 RMSNorm = 36 个 RMSNorm 注入点。

加上每个专家独立的 RMSNorm，实际数量：

三、AdaLN 在每个注入点做什么

看 RMSNorm. call 的 AdaLN 路径：

每个注入点做 3 件事：

参数作用含义 scale 乘以 (1 + scale) 缩放特征的每个维度 shift 加上 shift 偏移特征的每个维度 gate 给后面的 residual 用门控残差连接的强度

四、完整数据流（你的水瓶任务）

```

输入:

机器人当前双臂状态 $B, 16$

→ 状态编码器 (StateEncoder)

→ 条件向量 cond $B, 2048$ (和 PaliGemma hidden dim 对齐)

→ 复制 18 × 2 = 36 份（每层 Block 的每个 RMSNorm 一份）

→ 送进每个 RMSNorm 的 AdaLN

第 1 层 pre_attention_norm:

normed_image = rms_norm(image_tokens) * (1 + scale_1) +

shift_1

normed_text = rms_norm(text_tokens) * (1 + scale_2) +

shift_2

第 1 层 pre_ffw_norm:

normed_hidden = rms_norm(hidden) * (1 + scale_3) + shift_3

...

第 18 层 pre_ffw_norm:

同上结构，独立的 scale/shift/gate 参数

最终 Flow Matching 头:

收到已经被状态条件调制过 36 次的 hidden states

→ 输出条件化的动作 $B, 36$

```

五、这样设计的好处

对比做法效果普通条件注入把状态 concat 到输入只能影响第 1 层，后面层状态信息丢失 AdaLN（Pi 的做法）每层的每个 RMSNorm 都注入条件条件信息贯穿 18 层，每层都能"看到"当前状态好处状态条件 × 36 次注入模型在任何深度都能"记住"机器人姿态，生成更准确的动作

一句话：每个 Block 里的 pre_attention_norm 和 pre_ffw_norm 各注入一次，18 层共 36 个 AdaLN 注入点，让机器人状态条件贯穿整个 Transformer。

QA：

这 18 层 Block 是 Transformer 的核心"特征提炼管道" ------每一层都在做"从原始信号 → 抽象语义"的一步提炼。给你分阶段讲清楚：

一、每一层做什么

每一层 Block 内部的流水线：

二、18 层分 4 个阶段

阶段 1：L0 - L3（底层特征提取）

层做什么你的水瓶任务里 L0-L1 从原始像素/词元提取底层特征识别出"圆的东西"、"黄色的东西"、"直线边缘" L2-L3 组合底层特征成局部模式识别出"圆柱形"、"瓶盖纹理"、"桌面纹理"

阶段 2：L4 - L8（语义组合）

层做什么你的水瓶任务里 L4-L5 形成局部语义 "这个物体是水瓶"、"水瓶在桌子左边" L6-L7 跨模态融合图像和文本"grasp the water bottle"对齐 L8 状态条件注入让模型"看到"当前双臂姿态

阶段 3：L9 - L14（推理与规划）

层做什么你的水瓶任务里 L9-L10 形成动作意图 "我应该去抓这个水瓶" L11-L12 规划动作序列 "先张开夹爪 → 向前移动 → 夹紧" L13-L14 细化连续轨迹 "夹爪应该以 5cm/s 速度接近"

阶段 4：L15 - L17（条件化输出）

层做什么你的水瓶任务里 L15-L16 精调最终特征让特征和 Flow Matching 头对齐 L17 最后整合输出给 Flow Matching 头的 embedding

三、每层之间的"信息传递"

每层的输入输出维度相同（2048），通过残差连接保证梯度不消失。

四、AdaLN 条件注入在每层的作用

每个 Block 的 2 个 RMSNorm 都会注入条件，但每层"看到"的条件做的事不同：

层 AdaLN 条件作用 L0-L3 调制底层特征提取："当前状态是双臂张开 → 视觉注意力集中在桌面中央" L4-L8 调制语义融合："当前状态是已定位 → 文本 prompt 和图像更紧密对齐" L9-L14 调制动作规划："当前位置在 (x,y,z) → 规划路径从这里开始" L15-L17 调制最终输出："当前力传感器读数为 0 → 输出抓握前的动作"

五、一句话总结

18 层 Block = 18 次"特征提炼 + 跨专家通信 + 条件调制" ：

从 L0 的"识别边缘"到 L17 的"输出可执行动作"
每层都有跨专家 self-attention（PaliGemma 和 Action 专家交互）
每层都有 AdaLN 条件注入（机器人状态贯穿始终）
最终给 Flow Matching 头提供完全条件化的语义特征来生成 36 维连续动作

2 。为什么用mse loss，能用其他loss吗

SOLO Agent

思考过程

直接回答：

一、为什么 Flow Matching 用 MSE Loss

1. Flow Matching 的数学本质

Flow Matching 学习的是一个速度场 $o bj ec tO bj ec t$ v ( x , t ) ，满足 ODE：

$o bj ec tO bj ec t$ d t d x = v θ ( x , t )

训练目标是让 $o bj ec tO bj ec t$ v θ 匹配真实的速度场：

$o bj ec tO bj ec t$ u t = noise − action

所以 loss 是：

o bj ec tO bj ec t \] L = E t , x t ​ ​ \[ ∥ v θ ​ ( x t ​ , t ) − u t ​ ∥ 2

这就是 MSE （均方误差）。

2. MSE 是 Flow Matching 的标准选择

方面原因数学一致性 Flow Matching 推导时就是用 $o bj ec tO bj ec t$ L 2 损失，MSE 是理论要求优化稳定性 MSE 对连续值回归最稳定，梯度光滑物理意义速度场的 $o bj ec tO bj ec t$ L 2 距离就是能量，有物理意义简单高效不用调超参，直接用

3. 代码里的体现（pi0.py:L229）

就是对每个 36 维的 $o bj ec tO bj ec t$ v t 和 $o bj ec tO bj ec t$ u t 计算 squared L2 距离，再取均值。

二、能用其他 Loss 吗？

可以，但要理解每一种的影响：

Loss 公式效果适合场景 MSE（当前） $o bj ec tO bj ec t$ ∥ v − u ∥ 2 对大误差惩罚重默认推荐 MAE / L1 $o bj ec tO bj ec t$ ∥ v − u ∥ 对异常值鲁棒动作有少量异常值时 Huber 混合 MSE 和 MAE 可调鲁棒性平衡 MSE 和 MAE Smooth L1 Huber 的变体对大误差线性惩罚动作平滑性要求高 Cosine Similarity $o bj ec tO bj ec t$ 1 − cos ( v , u ) 关注方向而非幅值只关心动作方向

三、不同 Loss 对水瓶抓放任务的影响

MSE（当前默认）

MAE / L1

Huber Loss（推荐试试）

Cosine Similarity

四、如果要改，怎么改

在 pi0.py:L229 改一行：

五、我的建议

先保持 MSE 不动，原因：

MSE 是 Flow Matching 的理论标准 ------pi0-base 预训练时就用 MSE，你 finetune 时换 loss 会导致模型权重和新 loss 不匹配
你的数据量不大 ------几百条 episode，MSE 已经足够稳定
先训起来看效果 ------如果 MSE 训完效果不好（比如某些瓶子抓不稳），再考虑换 Huber

如果要试，优先试 Huber Loss ------比 MSE 更鲁棒，适合机器人动作这种有少量异常值的场景，而且不会丢失 MSE 的平滑梯度特性。

Q3：

Flow Matching 头提供完全条件化的语义特征来生成 36 维连续动作这一部分的代码在哪

找到了。Flow Matching 头就在 pi0.py 里，从"18 层 Gemma 输出"到"36 维连续动作"的完整链路：

一、代码位置分布

组件文件位置作用初始化（所有层定义） pi0.py:L66-103 定义 action_in_proj, time_mlp, action_out_proj embed_prefix（图像+文本） pi0.py:L106-152 编码图像+文本 tokens embed_suffix（状态+动作+时间） pi0.py:L154-201 编码状态+噪声动作+时间步主干 Gemma forward pi0.py:L224-226 18 层 Block 处理 Flow Matching 输出头 pi0.py:L227 action_out_proj 线性层损失计算（Flow Matching loss） pi0.py:L229 MSE loss 推理采样（Flow Matching ODE） pi0.py:L231+ 迭代去噪生成动作

二、完整数据流（训练时）

Step 1：初始化（L66-103）

Step 2：embed_prefix --- 编码图像+文本（L106-152）

Step 3：embed_suffix --- 编码状态+噪声动作+时间（L154-201）

Step 4：Gemma 18 层 forward（L224-226）

Step 5：Flow Matching 头输出（L227）⭐

这就是 Flow Matching 头 ------一个从 2048 维投影到 36 维的线性层。

Step 6：Flow Matching 损失（L229）

三、推理时（sample_actions）

四、总结

组件代码位置维度变换图像→SigLIP pi0.py:L118 $B,3,224,224$ → $B,196,2048$ 文本→Embedding pi0.py:L133 $B,5$ → $B,5,2048$ 动作→投影 pi0.py:L174 $B,15,36$ → $B,15,2048$ 时间步→MLP pi0.py:L179-182 $B,1$ → $B,2048$ 18 层 Gemma pi0.py:L224-226 $B,221,2048$ → $B,221,2048$ Flow Matching 头 pi0.py:L227 $B,15,2048$ → $B,15,36$

Flow Matching 头就是 action_out_proj = Linear(2048 → 36) ------把 Gemma 输出的 2048 维语义特征，投影成 36 维连续动作（双臂 14 关节 + 夹爪 2 × 15 步）。

Q4: 关于激活函数

我用你当前训练的水瓶抓放任务（batch=2，3相机，文本prompt，action_horizon=15，action_dim=36）的具体维度，结合代码，把前向传播求预测值的每一步计算、激活函数位置、维度变化完全具象化：

一、先明确：前向传播的2种场景

场景求的预测值是什么代码入口训练时带噪声动作的速度场预测值 $o bj ec tO bj ec t$ v t pi0.py:L204-229 推理时最终干净的 36维连续动作 pi0.py:L231+

二、训练时前向传播（求 $objectObject$ vt 预测值）

以 batch=2，3相机，10个文本token，15步动作horizon，36维动作为例，每一步对应代码和维度：

Step 1：embed_prefix（编码图像+文本）

代码位置： pi0.py:L106-152

Step 2：embed_suffix（编码噪声动作+时间步）

代码位置： pi0.py:L154-201

Step 3：Gemma 18层前向（核心计算）

代码位置： pi0.py:L224-226

Step 4：Flow Matching头输出 $objectObject$ vt 预测值

代码位置： pi0.py:L227

Step 5：计算Loss

代码位置： pi0.py:L229

三、推理时前向传播（求最终干净动作）

推理时是多次迭代的前向（10步默认），每一步都是上面的前向流程，只是噪声动作的初始值不同：

代码入口： pi0.py:L231+

四、核心总结

前向传播的计算本质每一步都是「线性变换 + 激活函数」的组合，最终通过输出层线性投影得到预测值。

激活函数在前向的位置

激活函数位置作用 Softmax Attention层把注意力权重归一化（非线性） GELU SwiGLU FFN层引入非线性，拟合复杂模式 Swish 时间步MLP 处理连续时间步的非线性变换无激活输出层（action_out_proj）直接投影到36维连续动作（线性输出）

维度变化全链路

指明这几个激活函数的代码和逻辑处理，为什么要这样用