【AI】神经网络等相关的想法记录

伪NChris2026-05-12 8:41

[1. 模型](#1. 模型)
- [1.1 强化学习模型](#1.1 强化学习模型)
- - [1.1.1 将状态价值评估和策略价值评估融合到一起尝试](#1.1.1 将状态价值评估和策略价值评估融合到一起尝试)
  - - 期望状态：
    - 问题：
[2. loss](#2. loss)

1. 模型

如flybird,

状态价值： agient状态---鸟的高度，鸟的速度，环境状态----柱子等

策略价值：鸟的动作---上升，下降
agent
模型1
期望状态概率分布
期望状态

模型1的责任是计算出鸟的期望位置，如需要多少高度。-----目标部分
对当前和期望求loss
当前状态
模型2
期望状态
动作概率分布：上、下

模型2是根据上个模型计算出的高度信息，将预测结果变为现实-------执行部分

两个模型，loss不相同，目标不相同，但串接在一起，实现整体目标的一小部分。

flybird的环境，能输出通过杆子的高度信息，执行部分去执行高度信息。相当于将一个二维的转换成两个一维的。

是否能提升性能？如，倒立摆，位置0为最高反馈，目标一直输出0，执行部分去执行。在这个状态中，目标部分则被跳过。

损失函数，应该是多维度的，如果分类不佳，是否损失函数的维度不够。

需要模型来评估关联参数，和评价维度。

只要前提条件加的多，你就是世界第一。

其中这个前提条件，就是loss大的部分，