模仿学习2.7：diffusion

SteveSenna2026-03-24 8:30

概念

以专家示范轨迹 为训练数据，通过扩散模型的**「逐步加噪 - 条件去噪」**生成范式，学习并输出符合专家行为分布的连续动作序列的模仿学习方法

核心目标：从专家示范的（状态 - 动作）轨迹中，学习一个从环境状态到执行动作的映射策略，让智能体复现专家的行为

核心能力：通过「前向逐步给数据加高斯噪声，反向训练去噪网络还原数据」的流程，精准拟合高维、复杂、多模态的数据分布，训练稳定性远优于 GAN 等生成模型

工作流程

1. 训练阶段（学习专家行为分布）

数据预处理：收集专家示范轨迹，整理为「环境状态序列（含当前 / 历史状态）+ 对应未来多步动作序列」的配对数据，动作序列是扩散模型的生成目标。
前向加噪过程：对专家的真实动作序列，逐步添加高斯噪声，经过 T 步后，纯动作序列被完全破坏为随机高斯噪声。

条件去噪训练：训练一个条件去噪神经网络，输入为「加噪后的动作序列、当前加噪步数、环境状态条件」，训练目标是精准预测当前步添加的高斯噪声。通过迭代训练，模型学会在给定状态下，从噪声中还原出专家的动作分布。

2. 推理阶段（策略执行）

从随机高斯噪声出发，作为初始的动作序列；
基于当前实时的环境状态，通过训练好的去噪网络，执行 T 步逐步去噪，最终还原出符合专家行为的完整动作序列；
一般取序列的第一个动作在环境中执行，之后进入新的环境状态，重复上述去噪生成流程，实现闭环的连续决策。

上一篇：小迪安全课程第五节复习笔记：渗透测试命令与反弹连接技术

下一篇：Umami：轻量级开源网站分析工具，打造隐私友好的Google Analytics替代方案

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 07AI科技热点日报 | 2026年07月01日 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结