论文阅读：Brain–Computer EMO: A Genetic Algorithm Adapting to the Decision Maker

Brain--Computer Evolutionary Multiobjective Optimization: A Genetic Algorithm Adapting to the Decision Maker

作者：Roberto Battiti、Andrea Passerini

期刊：IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTA TION、OCTOBER 2010

DOI：10.1109/TEVC.2010.2058118

内容简介

在多准则决策制定领域中，决策者的重要性得到了广泛的认同。这将会强调人机的无缝交互，以及改进解决方案技术以适应从DM逐步获得的知识。本文采用反应搜索优化(reactive search optimization，rso)方法进行进化交互式多目标优化。RSO 遵循"优化时学习"的模式，通过使用在线机器学习技术作为自校正优化方案的一个组成部分。利用用户对解决方案的判断，建立了稳健的用户效用函数增量模型，目的是减少用户对解决方案的认知负担，从而找到满意的解决方案。在效用函数训练过程中，结合支持向量排序技术和 k层交叉验证算法，选择最优的核函数。给出了一系列基准问题的实验结果。

内容摘录

Brain-Computer优化：在EMO方法中学习用户偏好

解决一个多目标问题通常意味着根据某一效用准者向人类决策者提供TA认为最优的解决方案，并允许TA在竞争的Pareto最优备选方案中进行选择。当然，这个效用准则可能是部分不一致的，难以形式化，并且可能根据优化算法提供的解进行修正。先验方法、后验方法、交互式方法。

交互式方法试图通过让用户处于优化过程的循环中，并在用户反馈的指导下逐步关注 Pareto前沿中最相关的领域来克服这些困难。着重将演化计算EC的性能与人类的评估结合在一起的文献[16]中提出的交互式演化计算得到了一个极端点，其中适应度函数被人类用户所取代。我们的调查遵循一个中间点，在这个中间点，目标 z k z_k zk的相关知识被假设为先验，并且 DM被要求为了建立一个明确和健壮的偏好非线性模型，被用作解决问题的过程中的一个不可分割的组成部分。

本论文解决方案的目的在于：

能够从DM交互提供的偏好信息的例子中学习到一个任意偏好函数；
只能通过整体判断(比较完整的解决方案，而不是规定详细的参数，如权重) 来请求决策者介入，通过对竞争实例排序，或者指定候选解决方案之间的成对偏好；
考虑到来自DM的不完整、不精确和矛盾的反馈；
直接使用经过学习的效用函数来指导寻找精确的解决方案。

为了从用户偏好信息中学习效用函数，我们将已知的支持向量机（SVM）分类算法改造为偏好学习算法。EMOA交替使用基于已学习的效用函数的适应度量指导搜索阶段，以及在精化阶段请求DM获得对候选解决方案的反馈，并根据这些反馈更新效用函数。

我们的重点是基于适当调整的支持向量机算法，来学习一个效用函数。

用于分类的标准SVMs学习一个决策函数，对训练数据进行大幅度的类别间隔拟合。

SVM公式可以很容易地适用于学习排序的效用函数。

EMO算法求得一组备选方案，通过效用函数对备选方案进行评价，由DM反馈一个排序，将该排序输入给支持向量排序训练来近似决策者偏好效用函数。

EMOA生成一组候选解决方案作为项目分配；

目标向量被传递给DM，DM根据TA的效用函数(未知)对目标向量进行排序，并返回有序列表作为反馈；这个反馈被转换成SV排序训练程序的成对约束，进行训练；利用训练后的预测效用函数指导新的候选解的搜索。

关于算法参数的选择，maxit，exa，and therescan 可以由 dm 选择，这取决于她在提供反馈时愿意付出的影响，以及取决于所需的解决方案的质量。训练迭代次数在开始时不需要固定，dm 可以通过将算法提供的排序和自己的偏好进行比较来选择是否需要进一步的训练迭代。作为一个通用的指导方针，第一次训练迭代中较大的数量比多次训练迭代更能够提高质量。然而，在现实世界的环境中，也应该考虑到对 dm 本身偏好的调整，并且可以采取更复杂的主动学习策略。

阅读心得总结

在进化多目标优化算法执行一定时间后得到的解决方案提交给决策者，决策者根据自己的偏好对解决方案进行排序，并将该排序以成对约束的形式反馈给SVM分类算法进行训练模拟决策者的效用函数，该效用函数将会指导EMOA的搜索优化。在整个优化过程中，决策者还被请求对解决方案进行反馈来更新效用函数，并将算法提供的排序结果与自己的偏好进行对比来选择是否需要进一步的训练。