第24篇:强化学习(RL)初体验——从“玩游戏”到“做决策”的智能体(概念入门)干了这么多年AI,我踩过最大的一个“坑”就是,以为把模型精度刷上去就万事大吉了。直到有一次,老板让我做一个能自动调节数据中心冷却系统的AI。我吭哧吭哧搞了个巨牛X的预测模型,能精准预测未来半小时的服务器负载和温度。结果呢?系统拿到预测结果后,完全不知道该怎么调风扇转速和冷水阀门——它只会“看”(预测),不会“做”(决策)。这时候我才真正意识到,我们常说的监督学习(如图像分类、语音识别)解决的其实是“感知”问题,而要让AI在复杂、动态的环境里主动采取一连串行动去达成目标,我们需要另一套完全不同的范式:强化学