review20260404 - 技术栈

主对比实验（表II）的公平性存在根本性缺陷，表II是本文最核心的性能对比表，但所有方法都被限制在缓冲区容量为1、前瞻窗口为0的标准在线设定下评估。这意味着APL的核心贡献------预放置机制和前瞻感知------在表II中完全未被使用。在这种设定下，APL相对于PCT+EMS的提升幅度仅为1.3个百分点（87.3% vs 86.0%），这一差异是否具有统计显著性未做检验。

更关键的是，这种对比设计让读者无法判断：APL的性能提升到底来自预放置机制（论文的核心贡献），还是来自网络架构（注意力编码、RoPE位置编码等）的改进？如果仅仅是架构层面的改进，那么论文标题和摘要所强调的"预放置学习"贡献就被大幅削弱了。

缺少与已有半在线/缓冲区方法的直接对比，论文在Section II-C详细讨论了三篇与缓冲区装箱直接相关的工作（文献10、11、12），但在实验中完全没有与这些方法进行数值对比。作者的解释是"这些方法基于不同的环境假设和决策协议，直接比较可能具有误导性"。

这一解释不够充分。这些工作解决的正是本文所针对的同一类问题（带缓冲区的在线装箱），它们是最自然的对比基线。即使环境协议存在差异，作者完全可以：(1) 在自己的BPP-BLI环境中重新实现这些方法的核心策略；(2) 或至少在这些方法的原始环境中评估APL。回避这一对比使得论文无法令人信服地证明APL相对于已有半在线方法的优势。

预放置机制的有效性边界不清晰

表I展示了不同缓冲区和前瞻窗口组合下的结果，但所有数据点都来自APL自身。缺少一个关键的消融对比：在相同的缓冲区和前瞻设定下，APL不使用预放置（仅观察前瞻信息但不预留空间）vs 使用预放置的性能差距。表III的消融实验虽然移除了预放置机制和控制模块，但仅在一个配置（缓冲区=2，前瞻=8）下进行，且只报告了一行结果。这不足以回答：

预放置机制的收益是否随前瞻窗口增大而饱和？
在前瞻窗口较小时（例如1-2），预放置是否仍然有效？
预放置导致的空间"浪费"（预留后物品未到达即被失效）的概率有多高？

预放置顺序约束的可行性检查过于简化

论文承认预放置的可行性检查采用的是"基于XY投影重叠和相对Z序的保守几何检查"，并明确说明"不构成完整的三维插入/机械臂运动学约束下的保证"（第536行）。这是一个重要的局限：

在实际场景中，如果预留的空间被新放置的物品从侧面围堵，即使满足Z序和XY投影规则，物品也可能无法物理上被放入预留位置。
论文没有量化这种简化检查导致的失败率（即预留空间最终因物理不可达而无法使用的比例）。
这一简化可能导致训练与真实部署之间存在gap，降低方法的实用价值。

奖励函数设计中预放置与实际放置的激励不平衡

奖励函数（公式10）对预放置（预留空间）和实际放置给予相同的体积奖励。但预放置本质上是一个"承诺"，其价值在物品实际到达并成功放置后才能兑现。如果预留后因各种原因失败（物品未到达、空间被阻挡），虽然有惩罚项，但初始的正奖励已经影响了值函数的估计。