franztao
2023/01/02阅读:20主题:默认主题
Reinforcement Learning:Markov Decision Process
Background
Reinforcement Learning是一个比较成熟的学科,有着比较扎实的理论基础,同时也是我觉得深度学习中比较难的一个分支。强化学习主要是围绕马尔可夫决策过程(Markov Decision Process,MDP)来进行的。强化学习不同的流派使用的符号是不一样的,而我们这里和强化学习经典之作Sutton的“An introduction to reinforcement learning”中保持一致。那么,首先我们引出一下什么是MDP,
Random Variable:随机变量是整个概率论的基础,也是机器学习的基础。随机变量是用于某一随机变量发生的可能性。
Stochastic Process:举个小例子,就是股票的价格,令 时刻股价为 。股票的价格每个时刻都是不同的,价格都是服从一个分布的。而之前时刻股票的价格肯定都是对此时的价格都有影响。而 关系非常的复杂。而 则为一个随机过程。
Markov Chain/Process:就是具有马尔可夫性质的随机过程。而Markov Property用公式表达为: 。通俗的语言表达为,当前时刻的状态仅仅和上一个时刻的状态有关。这样可以简化计算,并具有一定的合理性。
State Space Model:包括哪些呢?有HMM,Kalman Filter,Particle Filter。状态空间模型,则为马尔可夫假设+观测独立假设。之所以有观测独立假设,是因为此模型中引入了隐变量。而某时刻观测变量只和此时刻隐变量之间有关系。
Markov Reward Process:此模型为Markov Chain+Reward。在两个状态之间发生转移的时候,会得到一个奖励。
Markov Decision Process:即为Markov Chain+Reward+Action。这里是怎么回事呢?两个相邻状态之间的转移受到action的影响,而且转移完成之后会得到一个reward,如下图所示。

实际上MDP可以由一个四元组来表示 。其中 表示的是状态集合, 表示的是动作集合, ;而 是概率转移矩阵,表达两个状态之间转移的概率。 为两个状态发生转移后得到的奖励。
动态特征
完整的马尔可夫决策过程描述
一个完整的MDP可以如下所示:
MDP在每个状态下,可以由个体从可能的行动空间 中选择一个行动 ,紧接着的状态转移概率随着所选择行动的不同而不同。另外,我们再加入即时奖励,就可以得到MDP的动态特征。

我们注意到,马可夫性使得我们可以仅仅利用当前状态来估计接下来的收益,即仅仅使用当前状态来估计的策略并不比使用所有历史的策略差。可以说马可夫性带给我们了极大的计算上的便利,我们不用每一步都去处理所有的历史步骤,而是只需要面对当前的状态来进行处理。同时注意到,可能有些信息并没有被完整的包含到模型的状态信号
而实际上
而其中奖励函数可以定义为:
类似地,我们还可以得到在状态
强化学习最终目的
强化学习的核心是决策,而MDP想要找到最优策略。那么什么是Policy呢?Policy的主要是为了得到
一般来说,Reward越高,即为获得了回报越高,策略越 好。
其中,

实际上一个转移就是其中一条线,此图例中可以看到一共有9种转移可能,可以记为
价值函数(Value Function)
确定性策略可以看成是一种特殊的随机性策略。在前文中已经引出了价值函数
其中函数
这里有一个区别需要特别说明一下,
而
我们可以看到
因为
同理,把
这就是Bellman Expectation Function。
Bellman最优方程
上一小节中,主要介绍了价值函数和状态价值函数之间的关系,并推导出了两个Bellman方程。注意,强化学习的目的就是找到最优的
首先能够使得
那么,很显然可以得到:
同时需要注意的是,
那么,我们下一步的想法就是可不可以如同公式(11)一样,构建
首先,我们要知道
由于
那么有没有可能会是小于呢?如果
假设,
也就是出了
显然
这就是Bellman Optimality Equation。最后再提一点,在很多参考文献中,为了简便表示通常使用期望的方式来表达价值函数。
贝尔曼算子
此小节是对老师的内容做的一个小小的补充。简单讲解一下贝尔曼方程的收敛性,需要用到压缩映射定理。
在前一节中我们定义了两种价值函数,如果能够求得在某策略下的价值函数,我们就可以对该策略的好坏进行评估;如果能够求得最优情形下的价值函数,我们就可以自然得出最优策略。但我们还不知道要如何计算得到相应的价值函数数值,我们这里引入的Bellman算子及其相关的性质,可以为相关算法的收敛性提供一些保证。
考虑有限的状态空间