- 主对比实验(表II)的公平性存在根本性缺陷,表II是本文最核心的性能对比表,但所有方法都被限制在缓冲区容量为1、前瞻窗口为0的标准在线设定下评估。这意味着APL的核心贡献------预放置机制和前瞻感知------在表II中完全未被使用。在这种设定下,APL相对于PCT+EMS的提升幅度仅为1.3个百分点(87.3% vs 86.0%),这一差异是否具有统计显著性未做检验。
更关键的是,这种对比设计让读者无法判断:APL的性能提升到底来自预放置机制(论文的核心贡献),还是来自网络架构(注意力编码、RoPE位置编码等)的改进?如果仅仅是架构层面的改进,那么论文标题和摘要所强调的"预放置学习"贡献就被大幅削弱了。
- 缺少与已有半在线/缓冲区方法的直接对比,论文在Section II-C详细讨论了三篇与缓冲区装箱直接相关的工作(文献10、11、12),但在实验中完全没有与这些方法进行数值对比。作者的解释是"这些方法基于不同的环境假设和决策协议,直接比较可能具有误导性"。
这一解释不够充分。这些工作解决的正是本文所针对的同一类问题(带缓冲区的在线装箱),它们是最自然的对比基线。即使环境协议存在差异,作者完全可以:(1) 在自己的BPP-BLI环境中重新实现这些方法的核心策略;(2) 或至少在这些方法的原始环境中评估APL。回避这一对比使得论文无法令人信服地证明APL相对于已有半在线方法的优势。
- 预放置机制的有效性边界不清晰
表I展示了不同缓冲区和前瞻窗口组合下的结果,但所有数据点都来自APL自身。缺少一个关键的消融对比:在相同的缓冲区和前瞻设定下,APL不使用预放置(仅观察前瞻信息但不预留空间)vs 使用预放置的性能差距。表III的消融实验虽然移除了预放置机制和控制模块,但仅在一个配置(缓冲区=2,前瞻=8)下进行,且只报告了一行结果。这不足以回答:
-
预放置机制的收益是否随前瞻窗口增大而饱和?
-
在前瞻窗口较小时(例如1-2),预放置是否仍然有效?
-
预放置导致的空间"浪费"(预留后物品未到达即被失效)的概率有多高?
- 预放置顺序约束的可行性检查过于简化
论文承认预放置的可行性检查采用的是"基于XY投影重叠和相对Z序的保守几何检查",并明确说明"不构成完整的三维插入/机械臂运动学约束下的保证"(第536行)。这是一个重要的局限:
-
在实际场景中,如果预留的空间被新放置的物品从侧面围堵,即使满足Z序和XY投影规则,物品也可能无法物理上被放入预留位置。
-
论文没有量化这种简化检查导致的失败率(即预留空间最终因物理不可达而无法使用的比例)。
-
这一简化可能导致训练与真实部署之间存在gap,降低方法的实用价值。
- 奖励函数设计中预放置与实际放置的激励不平衡
奖励函数(公式10)对预放置(预留空间)和实际放置给予相同的体积奖励。但预放置本质上是一个"承诺",其价值在物品实际到达并成功放置后才能兑现。如果预留后因各种原因失败(物品未到达、空间被阻挡),虽然有惩罚项,但初始的正奖励已经影响了值函数的估计。