闭环最优控制问题(强化学习)

文章目录

学习闭环最优控制要解决的问题

问题本质:根据实时监测到的状态(熔池、温度等),动态调整激光功率、扫描速度、送粉率等参数,以补偿扰动、防止缺陷产生。

简单理解例子

首先,一个生动的类比:老司机开车 vs. 驾校学员开车

  1. 想象一下在一条蜿蜒的山路上行驶:

    开环控制 (驾校学员): 策略:教练说:"记住!这段路方向盘先右打90度,保持3秒,然后回正,油门踩20%..."

    执行:学员严格按这个固定的指令序列执行。 结果:如果路面有风、轮胎打滑、或者记错了时间,车很容易跑偏甚至出事故。它无法应对任何变化。
    闭环控制 (普通定速巡航):

    策略:你设定了目标:车速保持60km/h。

    执行:系统通过车速传感器实时测量当前速度。如果测到只有55km/h(有了反馈),它就自动多踩一点油门;如果测到65km/h,就收一点油门。

    结果:车能基本保持在60km/h左右,能应对小幅度的上下坡。它能根据"结果"的反馈来调整"动作"。
    闭环最优控制 (老司机):

    策略:老司机的目标不仅是"到达目的地",而且是"用最短时间、最省油、最平稳舒适的方式"到达。这是一个多目标的优化问题。 执行:

    感知:他眼睛(传感器)实时观察弯道曲率、路面颠簸、前后车距。

    决策:大脑(控制器)根据这些信息,瞬间做出最优决策:这个弯应该以什么速度、什么角度切入,出弯时如何加速。

    行动:手脚(执行器)精准地执行转向、油门、刹车的配合。

    评估:整个过程中,他不断感受车辆的姿态和乘客的舒适度(多维度奖励反馈),并微调操作。

    结果:不仅安全到达,而且又快又稳又省油。它在每一个瞬间,都在根据环境状态,求解一个"什么动作对我最终的多重目标最有利"的优化问题,并形成闭环。

定义与核心要素

闭环最优控制 是一种控制策略,它通过实时测量系统的输出状态(反馈),与期望目标进行比较,然后动态计算并执行一个能在某种指标下达到最佳性能的控制动作,以此构成一个持续的"感知-决策-执行"循环。

  • 闭环:关键在 "反馈" 。系统不断看"我现在做得怎么样",然后调整,而不是蒙着眼睛一杆子捅到底。
  • 最优:关键在 "代价函数" 。目标不是"差不多就行",而是要明确"好"的标准是什么(如:质量最高、用时最短、耗能最少),并数学化地追求这个标准下的最好结果。
  • 控制:关键在 "动态决策" 。根据当前状态,实时计算应该做什么。
相关推荐
大傻^3 天前
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案
强化学习·grpo
m0_650108243 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
Sherlock Ma4 天前
强化学习入门(2):DQN、Reinforce、AC、PPO
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
一颗小树x4 天前
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
微调·强化学习·vla·流匹配·πrl
一颗小树x5 天前
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA
强化学习·rl·vla·simplevla-rl
蓝海星梦5 天前
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦5 天前
GRPO 算法演进——裁剪机制篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦5 天前
GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
蓝海星梦5 天前
GRPO 算法演进——奖励设计篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习