Pi0学习笔记E

Fuxiao___2026-01-03 13:27

学习视频链接：Pi0 - generalist Vision Language Action policy for robots (VLA Series Ep.2) - YouTube

首先补一下Transformer基础：

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)_哔哩哔哩_bilibili

Encoder部分

分为输入部分、注意力机制部分和前馈神经网络部分。

位置编码

知识点：RNN梯度消失是总的梯度受近距离梯度的主导，远距离梯度的消失 （就是如果句子太长，RNN无法保留前面的信息）。

**为什么需要位置编码：**因为RNN是串行输入各个字符的，而Transformer是并行、一起输入的，需要记录一下字符的位置信息。

pos指的是"爱"这个单词在句子中的位置，position。i为0-512，是embedding的序号。

上一篇：Agent Skills 入门：把“公司 SOP + 工具脚本”封装成可复用技能，让 Agent 真正在你团队里干活（并对比 MCP）

下一篇：Java 大视界 -- 基于 Java+Storm 构建实时日志分析平台：从日志采集到告警可视化（440）

热门推荐

01GitHub 镜像站点 02【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 03OpenClaw 使用和管理 MCP 完全指南 04OpenClaw + 飞书（Feishu）环境搭建指南 05Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 06Window 10部署openclaw报错node.exe : npm error code 128 07OpenClaw优化飞书API 额度已耗尽问题 08Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 09AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 10OpenClaw 接入阿里云百炼 Coding Plan 指南