简介

本文解决的问题是，给定一个图优化问题和问题的分布的实例，我们能从中学习到更好的启发式推广到看不见的实例吗？

算法的大体结构是一个贪心算法，即我们在选择点的时候，每次都贪心地选择当前状态下最优的一个点，加入到选择集合中。与之前传统算法相比，本文本质上是使用强化学习去训练了一个policy，根据当前的选择以及图的状态，来选择下一个点

本文的强化学习部分采用的是传统的 Q-Learining，说是因为policy gradient 方法在采样方面比较困难，而且本文推导出来 Q 函数有数学上的意义，因此采样了Q learning。

本文解决的图论问题

本文主要尝试了以下三个问题：

从上面的假设和流程可以看出，本文的核心难点在于怎么找到一个计算代价不高的和自动化的训练出评估函数

至于helper function原文设定如下：

本文使用 structure2vec 方法来估算