球机器人研究报告【202600001】

文章目录

球机器人研究
- 报告
- 综合分析多智能体推箱子训练（第100代/第300代）
- - 一、意识流分析（神经网络脉冲活动）
  - - [1. 热图（`consciousness_agent2_gen100_ep0_heatmap.png`）](#1. 热图（consciousness_agent2_gen100_ep0_heatmap.png）)
    - [2. PCA（主成分分析，`consciousness_agent2_gen300_ep0_pca.png`）](#2. PCA（主成分分析，consciousness_agent2_gen300_ep0_pca.png）)
  - 二、符号活动分析（16维符号向量）
  - - [1. 转移概率矩阵（`symbol_agent0_gen100_ep0_trans.png`）](#1. 转移概率矩阵（symbol_agent0_gen100_ep0_trans.png）)
    - [2. 高频模式（`symbol_agent0_gen100_ep0_patterns.txt` 和 `ep1_patterns.txt`）](#2. 高频模式（symbol_agent0_gen100_ep0_patterns.txt 和 ep1_patterns.txt）)
    - [3. 智能体间互信息（未在用户上传中显示，但综合分析脚本会生成）](#3. 智能体间互信息（未在用户上传中显示，但综合分析脚本会生成）)
  - 三、结论与建议

球机器人研究

报告

只所以搞出这样的球机器人出来，就是想借对该3个机器人的行为及表现进行认识科学的研究，想研究意识的涌现。
机器人完全运行在物理模拟的真实环境中，使用了物理引擎参与计算。
C++程序(运行在fedora服务器上)及相应的python程序总算通过调试并正常运行了，1.1版从所有类脑神经网络初始化状态到开始训练一段时间，训练时间远不够（幸亏神经网络结构经过反复优化，所以训练时间不是很长~），所以机器人只是在那里学习和玩乐，程序也有待改进和修正。
效果如下：
有几个问题先说明一下：

（1）机器人所有的动作都是它们自动进化出来的，包括遇到什么地形采用什么动作，全是类脑神经网络自发学习和生成的（当然我给了极少数量的随机训练地形样本，给多了，我的机器受不了，训练太慢了，没办法）所以你会发现每个机器人的招牌动作都不一样。

（2）没有对机器人行走姿势和行走策略进行过任何预设，完全是它们自主学会行走的。主要是本人物理不太好（很多物理参数都不太懂，所以为了搭建适合的物理环境和机器人本身的方面，我调试这个程序花了近20天。），没办法进行预定，只能让机器自己学会，从走不了一步到慢慢可以走路。

（3）机器人内建了脑神经网络组和运动神经网络组，实现运动和大脑分开，另外机器人之间会通过符号交流和沟通。

（4）机器人安装了一个地形环境探索器，可以事先知道前面的地形，由于机器人还没有人类意识，但地形连接到了神经网络，它知道从记忆神经网络中调取学到的动作。

综合分析多智能体推箱子训练（第100代/第300代）

一、意识流分析（神经网络脉冲活动）

1. 热图（`consciousness_agent2_gen100_ep0_heatmap.png`）

观察：热图显示神经元活动在时间上存在明显的带状结构，部分神经元持续高活跃（亮黄色），大部分神经元保持低活跃（暗紫色），少数神经元间歇性爆发。
解读：
- 高活跃神经元可能编码持续的内部状态（如运动节律、目标意图）。
- 间歇性爆发的神经元对应事件驱动的脉冲（如接触箱子、跳跃、符号切换）。
- 无明显的大规模同步震荡，说明网络未陷入病态周期性活动。

2. PCA（主成分分析，`consciousness_agent2_gen300_ep0_pca.png`）

观察：PC1 解释了 63% 的方差，PC2 仅解释 3%。点云在 PC1 方向上显著分散，PC2 方向几乎无差异。
解读：
- 神经元群体活动主要由一个主成分 主导，表明网络内部存在一个高度相关的"全局模式"，可能与行走‑推箱子的主节奏相关。
- PC2 方差极低，说明次要模式（如个体差异、随机噪声）贡献很小，网络已经收敛到稳定的行为策略。
- 点云没有形成明显分离的簇，意味着没有分化出完全独立的功能模块（如"行走神经元组"与"推箱子神经元组"可能高度重叠）。

二、符号活动分析（16维符号向量）

1. 转移概率矩阵（`symbol_agent0_gen100_ep0_trans.png`）

观察：矩阵有明显的对角线主导（自转移概率高）和少数非对角线高亮方块。
解读：
- 符号状态倾向于自我维持（长时间保持同一符号），说明符号具有稳定的含义，而非随机游走。
- 非对角线高亮区域表明存在特定的状态跳转（例如从符号A跳到B再跳回A），可能对应行为切换（如"前进"→"推"→"前进"）。
- 状态数量较多（颜色方块多），但活跃状态可能只占少数，许多状态从未出现（全暗列）。

2. 高频模式（`symbol_agent0_gen100_ep0_patterns.txt` 和 `ep1_patterns.txt`）

观察：
- 最常见模式是 （5623, 5623） 出现 10 次（ep0）和 （3613, 3613） 出现 10 次（ep1），即相同状态的重复。
- 其他高频模式多为二元组 ，如 (5623, 3084), (3613, 9550) 等，且这些状态ID在不同 episode 中不一致（ep0 的 5623 在 ep1 中很少出现）。
解读：
- 符号状态ID是哈希值（通过 hash(tuple(sym)) % 10000 得到），不同 episode 即使行为相似，哈希结果也可能不同，因此跨 episode 的模式不可直接比较。
- 每个 episode 内部的频繁二元组反映了符号序列的局部语法 。例如 (5623, 5623) 高频表示该符号经常连续出现，可能对应持续执行某个行为（如"一直推箱子"）。
- 出现次数较少（3~10次）说明符号变化不频繁，每步几乎保持相同符号，符合"稳定状态"的观察。

3. 智能体间互信息（未在用户上传中显示，但综合分析脚本会生成）

预期：如果智能体间符号互信息较高，说明它们通过符号进行了协调（例如一个智能体输出"PUSH"符号，另一个智能体接收到后调整动作）。从训练日志看，适应度中包含了 MUTUAL_INFO_WEIGHT，因此网络可能已经学会了符号通信。

三、结论与建议

训练有效：意识流显示出有序的活动模式，符号表现出稳定的状态转移，说明神经网络已经学会了协调的行走和推箱子行为。
符号分化不足 ：虽然符号状态稳定，但不同 episode 使用的符号ID差异很大，表明符号含义没有收敛到通用语义 （每个 episode 随机初始化不同的符号编码）。这可以通过增加 ROLE_DIFF_WEIGHT 或固定符号解码器来改善。

球机器人研究报告【202600001】

文章目录

球机器人研究

报告

综合分析多智能体推箱子训练（第100代/第300代）

一、意识流分析（神经网络脉冲活动）

1. 热图（consciousness_agent2_gen100_ep0_heatmap.png）

2. PCA（主成分分析，consciousness_agent2_gen300_ep0_pca.png）

二、符号活动分析（16维符号向量）

1. 转移概率矩阵（symbol_agent0_gen100_ep0_trans.png）

2. 高频模式（symbol_agent0_gen100_ep0_patterns.txt 和 ep1_patterns.txt）

3. 智能体间互信息（未在用户上传中显示，但综合分析脚本会生成）

三、结论与建议

1. 热图（`consciousness_agent2_gen100_ep0_heatmap.png`）

2. PCA（主成分分析，`consciousness_agent2_gen300_ep0_pca.png`）

1. 转移概率矩阵（`symbol_agent0_gen100_ep0_trans.png`）

2. 高频模式（`symbol_agent0_gen100_ep0_patterns.txt` 和 `ep1_patterns.txt`）