文章目录
论文来源:(2016)Learning to Branch in Mixed Integer Programming
作者:Elias B. Khalil 等人
一、摘要
- 混合整数规划 (MIP) 中的分支策略设计以参数调整和离线实验的周期为指导,使用平均性能在极其异构的测试台上进行。
- 一旦设计出来,这些策略(及其参数设置)基本上与输入无关。
- 为了解决这些问题,我们提出了一个用于 MIP 中变量分支的机器学习 (ML) 框架。
- 我们的方法观察由强分支 (SB) 做出的决策,强分支是一种耗时的策略,它生成小型搜索树,收集表征树每个节点的候选分支变量的特征。
- 基于收集到的数据,我们通过解决 ML 中常见的排序学习问题,学习了一个易于评估的模拟 SB 策略的代理函数。
- 然后将学习到的排序函数用于分支。学习是特定于实例的,并且在执行分支定界搜索以解决实例时即时执行。
- 对基准实例的实验表明,我们的方法产生的搜索树比现有的启发式方法小得多,并且与最先进的商业求解器具有竞争力。
二、介绍
最近,离散优化已成功用于改进机器学习 (ML) 方法(Roth 和 Yih 2005;Bertsimas、King 和 Mazumder 2015)。我们将专注于这种富有成果的交叉施肥的相反方向。我们探索利用 ML 方法来提高混合整数线性规划 (MIP) 的分支定界搜索性能的方法。 ML 技术已成功应用于许多组合搜索问题。
例如,UCT 是一种广泛用于蒙特卡洛树搜索的在线学习算法(Kocsis 和 Szepesvári 2006),神经网络用于在单智能体搜索中结合启发式算法(Samadi、Felner 和 Schaeffer 2008),而 EM 算法是用于解决约束满足问题 (Hsu et al 2007)。
在 MIP 的背景下,最近的一些工作提出了 ML 技术,用于为 MIP 求解器构建良好参数配置的组合,并为给定实例选择最佳配置(Hutter 等人 2009 年;Kadioglu 等人;Xu 等人 2011 年)。 Alvarez 等人提出了一种 ML 方法,用于 MIP 的并行分支定界负载平衡(2015)。
分支的变量选择被认为是现代 MIP 求解器的主要组成部分(Linderoth 和 Savelsbergh 1999;Achterberg 和 Wunderling 2013)。作为解决 MIP 问题的分支定界算法的一部分(Nemhauser 和 Wolsey 1988),变量部分赋值的搜索树中的节点必须通过选择一个未赋值的变量并将其拆分为(两个)子节点域通过添加额外的约束。
选择好的变量作为分支通常会导致解决实例所需的节点数量急剧减少。事实上,领先的商业 MIP 求解器 IBM CPLEX 的研究人员最近进行的一项广泛的计算研究表明,与现代策略相比,使用朴素的变量选择策略会使性能降低 8 倍以上(Achterberg 和 Wunderling 2013)。然而,在同一项研究中,作者指出"结果表明,自 CPLEX 8.0(2002 版)以来,在分支变量选择方面取得了一些进展,但肯定没有突破"。
传统的分支策略分为两大类: 强分支 (SB) 方法在每个节点详尽地测试变量,并选择最佳的一个以缩小最佳边界与当前最佳可行解值之间的差距。 Achterberg (2009) 表明,与最先进的"混合分支"策略相比,SB 平均可以减少 65% 的搜索树节点。
然而,随着每个节点花费更多的时间,计算时间增加了 44%。另一方面,伪成本 (PC) 分支策略被设计为使用一小部分计算量来模仿 SB,通常在节点数和解决 MIP 的总时间之间实现良好的权衡。这种基于 PC 的策略的设计主要基于人类的直觉和广泛的工程,需要大量的手动调整(初始化、统计测试、打破平局等)。虽然这种方法很重要且具有建设性,但我们偏离它并建议直接从数据中学习分支策略。
我们为变量选择策略的数据驱动、动态设计开发了一个新颖的框架。通过利用监督排名的研究,我们的目标是制定收集所有属性中最好的策略:1)使用少量搜索节点,接近 SB 的良好性能,2)保持与 PC 一样的低计算占用空间,以及 3 ) 给定实例,根据变量的属性自适应地选择变量。
在单个分支定界搜索的上下文中,在第一阶段,我们观察 SB 做出的决策,并收集:表征树的每个节点处的变量的特征,以及区分候选分支变量的标签。在第二阶段,我们通过解决 ML (Liu 2009) 中常见的排序学习问题,学习一个模仿 SB 的易于评估的代理函数,并将收集的数据用于训练。在第三阶段,学习的排序函数用于分支。
与最近用于 MIP 中节点和变量选择的机器学习方法(He、Daumé III 和 Eisner 2014;Alvarez、Louveaux 和 Wehenkel 2014)相比,我们的方法:1) 可以实时应用于实例,无需大量实例的前期离线训练阶段,以及 2) 包括解决排序问题,而不是回归或分类,后者不太适合变量选择。它的即时特性具有实例特定和无缝继续分支定界的优势,在学习和预测之间切换时不会丢失工作。排名公式对于变量选择是自然的,因为参考策略 (SB) 通过分数有效地对节点处的变量进行排名,并选择排名靠前的变量,即分数本身并不重要。
我们将使用最先进的商业 MIP 求解器 CPLEX 展示该框架的实例化。我们使用一组为节点处的每个候选变量计算的静态和动态特征,以及基于 SVM 的学习来根据 SB 分数估计好变量和坏变量的两级排名。对基准实例的实验表明,我们的方法产生的搜索树明显小于基于 PC 的启发式方法,并且在节点数量方面与 CPLEX 的默认策略具有竞争力。
三、我们的框架概述
我们现在介绍一个学习在 MIP 中分支的框架。我们的直觉是,通过观察和记录 SB 引起的排名,我们可以学习变量特征的函数,该函数将以类似的方式对它们进行排名,而不需要昂贵的 SB 计算。给定一个 MIP 实例和一些参数,我们分三个阶段进行:
- 数据采集:对于有限数量的节点θ,采用S B 作为分支策略。在每个节点,计算出的 SB 分数用于为候选变量分配标签;并提取相应的变量特征。所有信息都编译在训练数据集中。
- 模型学习:数据集被送入学习排名算法,该算法输出特征的权重向量,从而使训练数据集上的某些损失函数最小化。
- 基于 ML 的分支:不再使用 SB,学习到的权重向量用于对变量进行评分,在得分最高的那个上分支直到终止。
在通过实验确认之前,我们强调了所提出的方法如何满足三个理想的特性。
- 节点效率:学习的排名模型使用 SB 分数和节点特定的变量特征作为训练数据,因此有望比 PC 更接近地模仿 SB 选择,从而产生更小的搜索树。
- 时间效率:SB仅在第一阶段使用,通常用于几百个节点。学习(第二阶段)所需时间很小,第三阶段主要是特征计算,其设计目的是比像 SB 那样求解 LPs 便宜得多。
- 自适应性:学习到的排名模型是特定于实例的,因为它根据收集的数据为特征分配不同的权重。
接下来,我们将更详细地描述每个阶段。
3.1 数据采集
未完待续....