本文主要介绍常用的几种优势函数的估计方式，首先定义一下本文讨论的优势函数，即：

可以理解为，在状态的情况下，采用动作比平均动作能获得多少优势。

蒙特卡洛方法（MC方法）

蒙特卡洛方法非常朴素，但是并不实用。即，在一个回合结束之后，再根据公式

算出，然后再用公式

直接用来表示，从而估计出最终的优势函数

这种方法的好处是，这是无偏估计，但是方差比较大，并且在online的时候无法做

TD方法

这个方法只需要一个值函数，使用如下方法来做估计：

这相当于是使用来估计，当然这就是有偏的了，不过这个方法的方差比上面的小。

这个方法比TD的改进是，使用两个