Introduction to reinforcement learning
Introduction
强化学习的基本思想是从与环境的互动中学习,与其他学习方式最大的两个区别就是:
- trial-and-error search
- delayed reward
基本元素
- policy
- reward signal
- value function
- a model of environment
policy
指agent每次在特定的时间下选择action的策略
reward signal
指的是整个强化学习的目标,每一次做出决策之后,环境都会给予一个反馈,这里的reward signal是及时反馈
value function
这里的value function是长期的反馈,是用于衡量一个决策的长期收益的。
value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的,只有有reward才能衡量value
Model
model是用来模拟环境变化的,是用来做计划的,强化学习算法可以分为model-based和model-free的
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
