【强化学习与最优控制】笔记（二）随机性问题的动态规划

上一期的笔记是确定性问题的动态规划，忘记的小伙伴可以再复习一下：

王源：【强化学习与最优控制】笔记（一）确定性问题的动态规划

0 写在前面的

上周我更新了第一篇关于强化学习与最优控制的笔记，整体反响还不错。我打算大约一周更新一篇文章。不得不说这本教材写得还真是蛮好的，电子版只有一个草稿，可以从如下链接中获取：

Dimitri P. Bertsekas 强化学习2021版教材和视频课程推荐

推荐大家购买纸质版的（这个是影印版的，比英文原本要便宜不少）。

强化学习与最优控制（英文版）

1 离散时间动态系统（随机性问题）

离散时间动态系统形式如下：

[公式] (1.1)

其中 [公式] 是时间索引，表示时间步系统的状态也被称为状态变量（state variable），表示时间步的控制量或者决策变量 (control variable or decision variable)，一般来说要满足一定的约束表示为，是随机变量，其概率分布为

相比上一节讲过的确定性系统来说主要是增加了 [公式] 这个随机变量，并且这个随机变量沿着时间是iid(独立同分布的)，也就是说之间是iid的。

2 随机性问题和确定性问题的主要区别

那么采用动态规划来求解随机性问题和上节所讲的确定性问题有何不同呢？主要有两点不同：

其一，随机性问题是要求解的是最优的 policies 序列（在控制理论中被称为反馈控制或者闭环控制），而确定性问题仅仅需要求解一个最优的值即可。

policies 序列定义如下 [公式] ，其中 , 是一个映射，将映射到，对于所有的都成立。

也就是说在随机性问题里边，我们要找出的是一个决策的规则和法则，这个法则就是policy（在控制理论中就叫做control law），而并不是直接给出决策变量的值。那为什么在带有随机性的问题里边我们要找的是policy呢？而不能像之前确定性问题那样直接去找决策变量的值呢，而是要绕一个弯子呢？

答案就是因为整个系统有干扰（随机）因素的存在，我们就必须要利用当前系统的状态信息 [公式] 来辅助我们进行决策。这个思想在控制理论中是一个非常非常经典和常用的思想。

我这里举个蒸馒头的例子来说明这个问题：在没有任何干扰一切的一切都非常完美的情况下，需要蒸十分钟馒头就熟了。那此时我们只需要设置一个定时器让炉子加热十分钟，十分钟后断掉，馒头就熟了。

但实际系统总是会有一些干扰存在的，例如蒸馒头的时候蒸汽把锅盖顶歪了，让锅盖没有盖好很多蒸汽漏了出来，如果还是按照十分钟来蒸，很可能馒头就还没有熟，又例如蒸馒头的过程中火力突然比预想的变大或者变小了，那同样也会影响蒸馒头的时间。这些意外干扰是在蒸馒头的过程中产生的，并不能预先知晓，所以就可以看做是 [公式] 。那遇到这些干扰因素我们又改如何解决呢？那在生活中的话我们会采用反馈的思想来解决，那就是例如蒸了九分钟的时候，我们会来尝一下这个馒头蒸得怎么样。如果馒头熟了，就停止，如果没熟，就继续蒸，甚至我们还可以进一步根据馒头熟的程度来估计还需要蒸多长时间。

蒸了九分钟的时候就尝一下馒头熟了没从本质上来说就是去拿系统当前 [公式] 的信息，通过来辅助我们修正我们的决策。我们的决策在蒸馒头的例子中是一个 if-else的形式：如果馒头熟了，就停止，如果没熟，就继续蒸，其实这就是一个规则也就是我们说的policy，本质上也就是一个映射了，如下所示：

[公式]