闭环最优控制问题（强化学习）

文章目录

学习闭环最优控制要解决的问题

问题本质：根据实时监测到的状态（熔池、温度等），动态调整激光功率、扫描速度、送粉率等参数，以补偿扰动、防止缺陷产生。

简单理解例子

首先，一个生动的类比：老司机开车 vs. 驾校学员开车

想象一下在一条蜿蜒的山路上行驶：

开环控制 （驾校学员）：策略：教练说："记住！这段路方向盘先右打90度，保持3秒，然后回正，油门踩20%..."

执行：学员严格按这个固定的指令序列执行。结果：如果路面有风、轮胎打滑、或者记错了时间，车很容易跑偏甚至出事故。它无法应对任何变化。
闭环控制 （普通定速巡航）：

策略：你设定了目标：车速保持60km/h。

执行：系统通过车速传感器实时测量当前速度。如果测到只有55km/h（有了反馈），它就自动多踩一点油门；如果测到65km/h，就收一点油门。

结果：车能基本保持在60km/h左右，能应对小幅度的上下坡。它能根据"结果"的反馈来调整"动作"。
闭环最优控制 （老司机）：

策略：老司机的目标不仅是"到达目的地"，而且是"用最短时间、最省油、最平稳舒适的方式"到达。这是一个多目标的优化问题。执行：

感知：他眼睛（传感器）实时观察弯道曲率、路面颠簸、前后车距。

决策：大脑（控制器）根据这些信息，瞬间做出最优决策：这个弯应该以什么速度、什么角度切入，出弯时如何加速。

行动：手脚（执行器）精准地执行转向、油门、刹车的配合。

评估：整个过程中，他不断感受车辆的姿态和乘客的舒适度（多维度奖励反馈），并微调操作。

结果：不仅安全到达，而且又快又稳又省油。它在每一个瞬间，都在根据环境状态，求解一个"什么动作对我最终的多重目标最有利"的优化问题，并形成闭环。

定义与核心要素

闭环最优控制是一种控制策略，它通过实时测量系统的输出状态（反馈），与期望目标进行比较，然后动态计算并执行一个能在某种指标下达到最佳性能的控制动作，以此构成一个持续的"感知-决策-执行"循环。

闭环：关键在 "反馈" 。系统不断看"我现在做得怎么样"，然后调整，而不是蒙着眼睛一杆子捅到底。
最优：关键在 "代价函数" 。目标不是"差不多就行"，而是要明确"好"的标准是什么（如：质量最高、用时最短、耗能最少），并数学化地追求这个标准下的最好结果。
控制：关键在 "动态决策" 。根据当前状态，实时计算应该做什么。