【AI】神经网络等相关的想法记录

神经网络等相关的想法记录

  • [1. 模型](#1. 模型)
    • [1.1 强化学习模型](#1.1 强化学习模型)
      • [1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试](#1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试)
  • [2. loss](#2. loss)

1. 模型

1.1 强化学习模型

1.1.1 将 状态价值评估 和 策略价值评估 融合到一起尝试

如flybird,

状态价值: agient状态---鸟的高度,鸟的速度,环境状态----柱子等

策略价值:鸟的动作---上升,下降
agent
模型1
期望状态概率分布
期望状态

模型1的责任是计算出鸟的期望位置,如需要多少高度。-----目标部分
对当前和期望求loss
当前状态
模型2
期望状态
动作概率分布 :上、下

模型2是根据上个模型计算出的高度信息,将预测结果变为现实-------执行部分

两个模型,loss不相同,目标不相同,但串接在一起,实现整体目标的一小部分。

期望状态:

flybird的环境,能输出通过杆子的高度信息,执行部分去执行高度信息。相当于将一个二维的转换成两个一维的。

问题:

是否能提升性能?如,倒立摆,位置0为最高反馈,目标一直输出0,执行部分去执行。在这个状态中,目标部分则被跳过。

2. loss

损失函数,应该是多维度的,如果分类不佳,是否损失函数的维度不够。

需要模型来评估关联参数,和评价维度。

只要前提条件加的多,你就是世界第一。

其中这个前提条件,就是loss大的部分,

相关推荐
Esaka_Forever2 分钟前
few‑shot learning(少样本学习)
人工智能·学习
逻辑君3 分钟前
Foresight研究报告【20260019】
人工智能·数学建模
旦莫5 分钟前
AI测试Agent的两种架构路径:谁做主控?
人工智能·python·架构·自动化·ai测试
城事漫游Molly6 分钟前
AI赋能质性研究(二):用 AI 做归纳编码,7 个场景提示词模板
人工智能·prompt·ai for science·提示词工程·定性研究
搬石头的马农10 分钟前
从零配置Claude自动修Bug:6步打造全自动开发流程
java·人工智能·python·bug·ai编程
暗夜猎手-大魔王15 分钟前
转载--Hermes Agent 04 | Agent 主循环:一次对话背后发生了什么
人工智能·python·算法
GPUStack16 分钟前
没有 GPU,还能跑大模型吗?vLLM vs llama.cpp 实测对比
人工智能·开源
星越华夏17 分钟前
物联网基于树莓派的智能环境监控系统:温湿度传感与远程控制综合设计
人工智能·物联网
Xxtaoaooo22 分钟前
DolphinDB物联网实测手记:用环境传感器数据跑通时序分析的完整链路
人工智能
道友可好22 分钟前
AI 写代码太快了,快到你对齐不了它
前端·人工智能