利用独立性的优势函数估计方法
论文链接:
https://www.ijcai.org/proceedings/2021/0461.pdf
在强化学习中,优势函数 (advantage function) 普遍采用蒙特卡洛 (MC)、时间差分 (TD),以及一种将前两者结合的优势函数估计算法(GAE) 等进行估计,而这些算法都存在方差较高的问题。因此,微软亚洲研究院的研究员们首次提出通过利用环境中存在于当前动作和未来状态之间的独立性,来降低优势函数估计中的方差。
在该方法中,存在于环境中的独立性可以用来构建一个基于重要性采样 (importance sampling) 的优势函数估计量。该估计量可以忽略未来无关的部分奖励,从而减小估计中的方差。为了进一步减少优势函数估计的方差,研究员们把该估计量和已有的蒙特卡洛估计量进行融合,并将最终的优势函数估计量命名为 IAE (Independence-aware Advantage Estimation)。实验结果表明,在策略优化算法中,IAE 与现有的优势函数估计方法 (GAE, MC) 相比,达到了更高的样本利用率。
事实上,现有方法往往先估计值函数 Q(s,a) 和 V(s),再将二者相减,进而估计优势函数。但当值函数覆盖的时间范围较大时,估计值函数就需要考虑未来较长时间内的总奖励,因此导致了高方差的问题。
当环境中存在独立性时,优势函数的估计就不需要考虑环境中的部分奖励,从而使得估计中的方差减小。举个例子:假设智能体当前的任务是打乒乓球,在该环境下,智能体每赢得一分或输掉一分后,游戏的状态都会被重新设置到起始状态,并继续进行下一轮游戏。当对智能体每一个动作的优势函数进行估计时,由于智能体每个动作的影响都被限制在当前回合内,所以下一轮及之后的奖励实质上不影响优势函数的估计。
上述例子表明,如果执行当前的动作不影响未来某些状态的概率,那么这些未来状态上的奖励在估计优势函数时就可以被忽略。研究员们对上述观察进行了概括和抽象,并提出了基于重要性采样的优势函数估计量。下面给出的是基于重要性采样推导出来的该估计量的形式:
此公式证明了如下的估计量是优势函数的无偏估计量:
在后续推导中,研究员们进一步将上述基于重要性采样的估计量与基于蒙特卡洛的优势函数估计量进行结合,并通过优化结合后估计量的方差,使优势函数估计的方差更小。同时,研究员们将组合后的优势函数估计量命名为 IAE,并在实验中测量了 IAE 的估计性能。最后,研究员们还提出了上述公式中重要性采样的概率比值的估计方法,并且还利用其对该概率比值进行了准确的估计。
在 tabular 设置下,研究员们构建了多种包含3个状态的马尔可夫决策过程 (MDP),并且在这些设置中包含了不同的转移函数设置和不同的奖励设置。研究员们比较了 IAE、蒙特卡洛、重要性采样三种优势函数估计量在不同设置下的标准差,结果见表1。实验结果表明,IAE 的估计量的标准差显著小于蒙特卡洛和重要性采样的估计量的标准差。
表1:不同设置下 IAE、MC、IS 的标准差
为了验证 IAE 在策略优化中的作用,研究员们将 IAE、蒙特卡洛、GAE 分别作为 PPO 算法中的优势函数估计方法,使用 PPO 算法进行策略优化,并观察不同优势函数估计方法在策略优化中的性能。该实验使用高维图像作为状态,即智能体的策略和优势函数的估计均只使用图像输入。PPO 算法在不同优势函数估计方法下的训练曲线图1,两幅图对应于两种不同的奖励设置。实验结果表明,IAE 作为优势函数估计算法时,策略优化过程的样本利用率更高。
图1 PPO 算法在不同优势函数估计方法下的训练曲线
本文来自橙子投稿,不代表知行编程网立场,版权归原作者所有,欢迎分享本文,转载请保留出处!
内容反馈