闭环最优控制问题(强化学习)

文章目录

学习闭环最优控制要解决的问题

问题本质:根据实时监测到的状态(熔池、温度等),动态调整激光功率、扫描速度、送粉率等参数,以补偿扰动、防止缺陷产生。

简单理解例子

首先,一个生动的类比:老司机开车 vs. 驾校学员开车

  1. 想象一下在一条蜿蜒的山路上行驶:

    开环控制 (驾校学员): 策略:教练说:"记住!这段路方向盘先右打90度,保持3秒,然后回正,油门踩20%..."

    执行:学员严格按这个固定的指令序列执行。 结果:如果路面有风、轮胎打滑、或者记错了时间,车很容易跑偏甚至出事故。它无法应对任何变化。
    闭环控制 (普通定速巡航):

    策略:你设定了目标:车速保持60km/h。

    执行:系统通过车速传感器实时测量当前速度。如果测到只有55km/h(有了反馈),它就自动多踩一点油门;如果测到65km/h,就收一点油门。

    结果:车能基本保持在60km/h左右,能应对小幅度的上下坡。它能根据"结果"的反馈来调整"动作"。
    闭环最优控制 (老司机):

    策略:老司机的目标不仅是"到达目的地",而且是"用最短时间、最省油、最平稳舒适的方式"到达。这是一个多目标的优化问题。 执行:

    感知:他眼睛(传感器)实时观察弯道曲率、路面颠簸、前后车距。

    决策:大脑(控制器)根据这些信息,瞬间做出最优决策:这个弯应该以什么速度、什么角度切入,出弯时如何加速。

    行动:手脚(执行器)精准地执行转向、油门、刹车的配合。

    评估:整个过程中,他不断感受车辆的姿态和乘客的舒适度(多维度奖励反馈),并微调操作。

    结果:不仅安全到达,而且又快又稳又省油。它在每一个瞬间,都在根据环境状态,求解一个"什么动作对我最终的多重目标最有利"的优化问题,并形成闭环。

定义与核心要素

闭环最优控制 是一种控制策略,它通过实时测量系统的输出状态(反馈),与期望目标进行比较,然后动态计算并执行一个能在某种指标下达到最佳性能的控制动作,以此构成一个持续的"感知-决策-执行"循环。

  • 闭环:关键在 "反馈" 。系统不断看"我现在做得怎么样",然后调整,而不是蒙着眼睛一杆子捅到底。
  • 最优:关键在 "代价函数" 。目标不是"差不多就行",而是要明确"好"的标准是什么(如:质量最高、用时最短、耗能最少),并数学化地追求这个标准下的最好结果。
  • 控制:关键在 "动态决策" 。根据当前状态,实时计算应该做什么。
相关推荐
指掀涛澜天下惊3 天前
AI 基础知识十九 强化学习前言
人工智能·机器学习·强化学习
劈星斩月4 天前
机器学习之 定义与三大范式
人工智能·机器学习·监督学习·强化学习·无监督学习
文艺倾年4 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
盼小辉丶4 天前
PyTorch强化学习实战(14)——优先经验回放机制
pytorch·python·深度学习·强化学习
文艺倾年5 天前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
happyprince6 天前
07_verl-Trainer模块详解
人工智能·架构·wpf·强化学习
chen_zn956 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
happyprince6 天前
08_verl-Workers模块详解
人工智能·架构·强化学习
happyprince7 天前
02_verl-代码目录结构详解
人工智能·架构·强化学习
happyprince7 天前
10_verl-Rollout模块详解
人工智能·架构·强化学习