2.8 强化学习经验回放

  • 创新点:在抽取经验池中过往经验样本时,采取按优先级抽取的方法

  • 改进:同上

  • 改进原因: 原来随机抽取经验忽略了经验之间的重要程度,实际上如人脑中一定会有更为重要的记忆

  • 带来益处:使得算法更快收敛,效果更好

经验回放使得在线强化学习的agent能够记住和重新利用过去的经验,在以往的研究中,过去的经验(transition,经验池中的一条记录,表示为元祖形式,包含state,action,reward,discount factor,next state),只是通过均匀采样来获取。然而这种方法,只要原来有过这个经验,那么就跟别的经验以相同的概率会被再次利用,忽略了这些经验各自的重要程度。

本文我们提出了一种优先回放结构,这种方法可以使重要的经验被回放的概率大,从而使学习变得更有效率。

论文笔记7:Prioritized Experience Replay

Last updated