模仿学习2.7:diffusion

概念

专家示范轨迹 为训练数据,通过扩散模型的**「逐步加噪 - 条件去噪」**生成范式,学习并输出符合专家行为分布的连续动作序列的模仿学习方法

核心目标:从专家示范的(状态 - 动作)轨迹中,学习一个从环境状态到执行动作的映射策略,让智能体复现专家的行为

核心能力:通过「前向逐步给数据加高斯噪声,反向训练去噪网络还原数据」的流程,精准拟合高维、复杂、多模态的数据分布,训练稳定性远优于 GAN 等生成模型

工作流程

1. 训练阶段(学习专家行为分布)

  • 数据预处理:收集专家示范轨迹,整理为「环境状态序列(含当前 / 历史状态)+ 对应未来多步动作序列」的配对数据,动作序列是扩散模型的生成目标。

  • 前向加噪过程:对专家的真实动作序列,逐步添加高斯噪声,经过 T 步后,纯动作序列被完全破坏为随机高斯噪声。

条件去噪训练:训练一个条件去噪神经网络,输入为「加噪后的动作序列、当前加噪步数、环境状态条件」,训练目标是精准预测当前步添加的高斯噪声。通过迭代训练,模型学会在给定状态下,从噪声中还原出专家的动作分布。

2. 推理阶段(策略执行)

  • 从随机高斯噪声出发,作为初始的动作序列;

  • 基于当前实时的环境状态,通过训练好的去噪网络,执行 T 步逐步去噪,最终还原出符合专家行为的完整动作序列;

  • 一般取序列的第一个动作在环境中执行,之后进入新的环境状态,重复上述去噪生成流程,实现闭环的连续决策。

相关推荐
Slow菜鸟10 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
狐狐生风11 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
狐狐生风11 小时前
LangChain RAG 基础
人工智能·python·学习·langchain·rag·agentai
努力努力再努力FFF13 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
sakiko_14 小时前
UIKit学习笔记5-使用UITableView制作聊天页面
笔记·学习·swift·uikit
Alice-YUE15 小时前
【js高频八股】防抖与节流
开发语言·前端·javascript·笔记·学习·ecmascript
北山有鸟16 小时前
修改源码法和插件法
嵌入式硬件·学习
richxu2025100116 小时前
嵌入式学习之路->stm32篇->(14)通用定时器(上)
stm32·单片机·嵌入式硬件·学习
qeen8717 小时前
【数据结构】建堆的时间复杂度讨论与TOP-K问题
c语言·数据结构·c++·学习·
lizhihai_9917 小时前
股市学习心得-六张分时保命图
大数据·人工智能·学习