GAE | 广义优势估计
本文主要介绍常用的几种优势函数的估计方式,首先定义一下本文讨论的优势函数,即:
可以理解为,在状态
蒙特卡洛方法(MC方法)
蒙特卡洛方法非常朴素,但是并不实用。即,在一个回合结束之后,再根据公式
算出
直接用
这种方法的好处是,这是无偏估计,但是方差比较大,并且在online的时候无法做
TD方法
这个方法只需要一个值函数,使用如下方法来做估计:
这相当于是使用
A2C方法(这个方法是不是A2C笔者没有Check过)
这个方法比TD的改进是,使用两个
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
