Introduction

强化学习的基本思想是从与环境的互动中学习，与其他学习方式最大的两个区别就是：

基本元素

指agent每次在特定的时间下选择action的策略

指的是整个强化学习的目标，每一次做出决策之后，环境都会给予一个反馈，这里的reward signal是及时反馈

这里的value function是长期的反馈，是用于衡量一个决策的长期收益的。

value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的，只有有reward才能衡量value

model是用来模拟环境变化的，是用来做计划的，强化学习算法可以分为model-based和model-free的