Blogs

Created2024-03-06|reinforcement_learning

TD-预测在蒙特卡洛方法中，对于 every-visit 的蒙特卡洛方法，可以给出一个递推的更新公式：这个式子里面的必须在一幕结束之后才能计算出来，所以在一幕中学不到任何信息。而的定义是：如果使用来估算的话，那么有带入有注意到这里的式子里面已经没有东西需要在一个幕结束之后才能算出来，那么就得到了一个只需要一步的时序差分方法，称为或单步算法如图所示： TD-Error定义 TD-error 为：那么式可以写为蒙特卡洛误差可以被写成 TD-Error 的形式： Sarsa方法前面给出了状态价值函数的更新公式，但是在实际做出决策的时候，动作价值函数是更为实用的选择，所以这里给出动作价值函数的更新公式：这里的公式中同样不含有任何需要一个episode结束才能算出来的东西，所以可以动态更新。 On-policy的时序差分方法在给定策略的情况下，可以根据公式来更新动作价值函数，并且更新来逼近最优的策略。算法如图： Q-Learning —— Off-Policy 的时序差分方法定义更新公式：Q-Learning已经证明是不依赖初始策略，以概率为1去逼 ...

Monte Carlo Methods

Created2024-03-05|reinforcement_learning

提出背景在DP方法中，需要指导转移概率的先验知识，但是一般情况夏是不知道这个概率的，即无法知晓那么前面的 DP 方法就会失效，那么这里提出一种基于采样的方法来获取相关的信息。蒙特卡洛方法指的是一系列从重复采样中进行估计的方法。在强化学习中，蒙特卡洛方法通过对大量样本的回报进行平均，来进行价值估计。随着收集到的样本越来越多，平均值就会收敛到期望值。MC算法是在每一幕结束之后进行更新的。关于 visit 访问的定义如果状态出现在策略中，每一次出现称为一次访问 , 第一次访问称为首次访问两种MC算法MC算法分为首次访问和每次访问两种，首次访问是只计算每一幕的首次访问的回报，而每次访问则是每一次遇到状态就进行更新，首次访问的算法流程图如下：去掉关于的判断就是每次访问的算法了。利用蒙特卡洛方法估计动作价值如果问题是 Model-unaware 的那么就可以考虑利用蒙特卡洛方法去估计动作-状态价值函数，只需要把上面的算法中的换成二元组就可以了。消除初始策略带来的影响为了尽可能多的探索可能的情况，减小策略带来的影响而学习到全局的最优解，通常有 on-pol ...

Dynamic Programming

Created2024-03-03|reinforcement_learning

递推表达式通过之前的定义可以得到一个递推版本的DP状态转移方程：这里的代表的是步，具体的含义是可以通过次 action 到达这个状态。所以上面的更新就是从步的价值函数去更新步的价值函数这里的并不是Bellman 方程，只是递推表达式，算法要求是到最后接近满足Bellman方程注意，这里的更新是和策略有关的，是在策略确定的情况下，通过更新的方式来确定真正的状态价值函数。具体的算法如图：在递推的过程中改进策略在迭代的过程中，如果已知策略的价值函数希望知道在某个状态下选择一个不同于的动作是否会带来改善，这种策略的价值为：如果上面的式子的值大于目前的状态价值函数那么就更新此时的策略为而由于所有的策略的状态价值函数存在偏序关系，也就是说存在 upper bound 那么就可以利用这一点证明，每次取贪心的策略即$$\pi’ = \mathop{argmax}a q_\pi(s,a) = \mathop{argmax}a \mathbb E[R{t + 1} + \gamma v_\pi (S{t +1}) | S_t = s ...

Finite Markov Decision

Created2024-03-02|reinforcement_learning

马尔科夫模型中与环境交互的定义Agent做出动作后，Environment会反馈一个状态和一个奖励给到Agent，而Agent的目标还是最大化奖励之和有限马尔科夫决策过程的规定在有限马尔科夫决策过程中，所有的 states,actions,rewards 的集合都是有限的，而随机变量和被定义为仅仅依靠前面一次的state和action 的离散的概率分布，即只有上一次的状态和选择会影响当前的状态和奖励。转移函数定义转移函数 :转移函数是一个确定性的函数，即在同一个马尔科夫随机过程中，这个函数是不会发生变化的该函数有如下的性质：奖励期望的定义在MDP中，奖励的期望被定义为如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标，例如如果是训练围棋，那么奖励应该设置为获得胜利，只有获得胜利的时候才会得到1的奖励，不能设置为吃子，这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode 那么就可以得到一个终结状 ...

Tabular Solution Methods

Created2024-02-28|reinforcement_learning

Basic idea基本想法是在状态空间和可能的行动空间都足够小的情况下（能够通过表格或者是数列存下的情况下），通常能够找到精确解多臂老虎机(k-armed bandit problem)问题描述现在有 k 种选择，每次可以从 k 种选择种选择一个，每种选择给出的奖励都是基于一个未知但是确定的分布的，学习的目标是在有限的次数中最大化所有的奖励的和。符号定义 : 在时刻选择的动作 : 对应的reward : 在该时刻动作的 value： : 在时刻估计的动作的 value 样本均值法此时对于动作的估计是：$$Q_t(a) = \frac{\mathrm{在t时刻之前采取动作a获得的奖励之和}}{在t时刻之前采取动作a的次数} = \frac{\sum_{i = 1}^{t - 1}\limits R_i \cdot \mathbb{1}{A_i = a}}{\sum{i = 1}^{t - 1}\limits \mathbb{1}{A_i = a}}$$这里的 $\mathbb{1}{A_i = a}$ 是指示函数，在相等时取1否则为0 那么每次的决策 ...

Introduction to reinforcement learning

Created2024-02-28|reinforcement_learning

Introduction强化学习的基本思想是从与环境的互动中学习，与其他学习方式最大的两个区别就是： trial-and-error search delayed reward 基本元素 policy reward signal value function a model of environment policy指agent每次在特定的时间下选择action的策略 reward signal指的是整个强化学习的目标，每一次做出决策之后，环境都会给予一个反馈，这里的reward signal是及时反馈 value function这里的value function是长期的反馈，是用于衡量一个决策的长期收益的。 value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的，只有有reward才能衡量value Modelmodel是用来模拟环境变化的，是用来做计划的，强化学习算法可以分为model-based和model-free的

Optimization Problems

Created2023-11-16|Optimization

SOCP问题![[image/Pasted image 20231116141755.png]] Robust Linear Programming![[image/Pasted image 20231116141315.png]]问题：这里有无穷个约束，并且不可明确写出到底是哪些约束所以这个就不是一个线性规划问题了解决方法：取出上确界即可![[image/Pasted image 20231116141551.png]]后面那个是由于同方向的时候整个内积取最大值最后可以化成一个SOCP问题![[image/Pasted image 20231116141659.png]] Geometric ProgrammingMonomial Function（单项式）![[image/Pasted image 20231116141938.png]] Posynomial Function（正项式）![[image/Pasted image 20231116142008.png]] GP问题（几何优化问题）![[image/Pasted image 20231116142059.pn ...

常见公式

Created2023-11-02|Probability_Theory

和与差的分布和的分布函数公式被称之为卷积公式：设为二维随机变量，其联合密度为求的密度函数：有按照形区域积分，有做变量替换，令有所以有商与积的分布设则设则下面给出一个乘法的证明求导得 min 和 max 的分布令，那么他们的分布函数为注意，这里只能用分布函数来做运算，不能直接通过密度函数得出对应点的密度同理

Expectation

Created2023-10-30|Probability_Theory

带函数的期望一维形式设是随机变量的韩云，（连续）若是离散型，分布律为那么若收敛那么变量的数学期望为若是连续行随机变量，其密度函数为若对应的级数是绝对收敛的，那么有二维形式设随机变量的函数是一个随机变量，那么若是离散型随机变量，那么有若为连续性随机变量，那么有做题技巧如何处理带最小值的期望例如习题4.9 带最小值的期望不好用每一个部分的贡献加起来求，因为每一个部分的贡献是不确定的，最好的方式是求出最小值的变量的概率，然后直接用求而这道题里面最重要的就是的密度函数怎么求，应该先求分布函数。而有变量小于这里的的变量的分布函数求出之后再求导即可得到密度函数如何处理多个事件共同决定的变量的期望拆分成多个事件，直接求各个事件的期望的和

Common probability distributions in two dimension

Created2023-10-29|Probability_Theory

离散型二维联合分布三项分布若二维离散型随机变量的分布律是其中且记为三项分布是二项分布的拓展形式:![[Bachelor/Probability Theory/Common probability distributions in one dimension#二项分布]] 二维超几何分布若二维变量的分布律满足其中而则称其符合二维超几何分布二维超几何分布是一维的拓展 ![[Bachelor/Probability Theory/Common probability distributions in one dimension#超几何分布]] 连续性随机变量二维联合分布二维均匀分布设为平面有界区域，其面积是则二维变量满足其他可以看做是一维的均匀分布变成了平面![[Bachelor/Probability Theory/Common probability distributions in one dimension#均匀分布]] 二维正态分布若二维变量的联合密度满足则称其满足二维正态分布如何记忆:考虑一维的形式，二维相当于是带上了相关系数之 ...