闭环最优控制问题(强化学习)

文章目录

学习闭环最优控制要解决的问题

问题本质:根据实时监测到的状态(熔池、温度等),动态调整激光功率、扫描速度、送粉率等参数,以补偿扰动、防止缺陷产生。

简单理解例子

首先,一个生动的类比:老司机开车 vs. 驾校学员开车

  1. 想象一下在一条蜿蜒的山路上行驶:

    开环控制 (驾校学员): 策略:教练说:"记住!这段路方向盘先右打90度,保持3秒,然后回正,油门踩20%..."

    执行:学员严格按这个固定的指令序列执行。 结果:如果路面有风、轮胎打滑、或者记错了时间,车很容易跑偏甚至出事故。它无法应对任何变化。
    闭环控制 (普通定速巡航):

    策略:你设定了目标:车速保持60km/h。

    执行:系统通过车速传感器实时测量当前速度。如果测到只有55km/h(有了反馈),它就自动多踩一点油门;如果测到65km/h,就收一点油门。

    结果:车能基本保持在60km/h左右,能应对小幅度的上下坡。它能根据"结果"的反馈来调整"动作"。
    闭环最优控制 (老司机):

    策略:老司机的目标不仅是"到达目的地",而且是"用最短时间、最省油、最平稳舒适的方式"到达。这是一个多目标的优化问题。 执行:

    感知:他眼睛(传感器)实时观察弯道曲率、路面颠簸、前后车距。

    决策:大脑(控制器)根据这些信息,瞬间做出最优决策:这个弯应该以什么速度、什么角度切入,出弯时如何加速。

    行动:手脚(执行器)精准地执行转向、油门、刹车的配合。

    评估:整个过程中,他不断感受车辆的姿态和乘客的舒适度(多维度奖励反馈),并微调操作。

    结果:不仅安全到达,而且又快又稳又省油。它在每一个瞬间,都在根据环境状态,求解一个"什么动作对我最终的多重目标最有利"的优化问题,并形成闭环。

定义与核心要素

闭环最优控制 是一种控制策略,它通过实时测量系统的输出状态(反馈),与期望目标进行比较,然后动态计算并执行一个能在某种指标下达到最佳性能的控制动作,以此构成一个持续的"感知-决策-执行"循环。

  • 闭环:关键在 "反馈" 。系统不断看"我现在做得怎么样",然后调整,而不是蒙着眼睛一杆子捅到底。
  • 最优:关键在 "代价函数" 。目标不是"差不多就行",而是要明确"好"的标准是什么(如:质量最高、用时最短、耗能最少),并数学化地追求这个标准下的最好结果。
  • 控制:关键在 "动态决策" 。根据当前状态,实时计算应该做什么。
相关推荐
大傻^3 天前
强化学习与大模型融合:从理论到机器人实践全解析
机器人·llm·大语言模型·强化学习·urdf·ppo·奖励设计
山顶夕景8 天前
【LLM】ROLL团队的Agentic RL训练坑点
大模型·llm·强化学习·rl·agentic rl
一颗小树x11 天前
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA
强化学习·训练·vla·π0·π0.5
码农小韩12 天前
AIAgent应用开发——DeepSeek分析(二)
人工智能·python·深度学习·agent·强化学习·deepseek
香芋Yu13 天前
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA
人工智能·算法·强化学习·rl·sarsa·q-learning
香芋Yu13 天前
【强化学习教程——01_强化学习基石】第05章_时序差分学习
强化学习·时序差分学习
悠哉悠哉愿意13 天前
【强化学习学习笔记】马尔科夫决策过程
笔记·学习·交互·强化学习
码农小韩14 天前
AIAgent应用开发——DeepSeek分析(一)
人工智能·python·深度学习·agent·强化学习
香芋Yu15 天前
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程
强化学习·rl·mdp
kkkkkkkkk_120115 天前
【强化学习】09周博磊强化学习纲要学习笔记——第五课上
笔记·深度学习·学习·强化学习