900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 强化学习总结(3-4)——无模型的价值函数的预测 蒙特卡洛和TD时序差分方法

强化学习总结(3-4)——无模型的价值函数的预测 蒙特卡洛和TD时序差分方法

时间:2021-09-22 23:02:01

相关推荐

强化学习总结(3-4)——无模型的价值函数的预测 蒙特卡洛和TD时序差分方法

文章目录

强化学习总结(3-4)无模型预测价值函数蒙特卡洛时序差分(TD)学习

强化学习总结(3-4)

​ 最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强化学习应用场景比较多,而且更加烧脑liaoer。

​ 上面第一张图是我们的model-base RL,第二张图是我们的model-free RL,这里呢,可以看到model-base RL是没有和环境的一个交互,换句话说呢没有实际的交互,因为那个环境中的转移概率P我们是已知的,R也是已知的,我们只需要按照价值函数期望公式就能算出价值函数,以及optimal policy。然鹅,model-free RL它不知道P啊,它木得办法啊,它只能去交互,在实际操作中看看我各个状态间的转移概率是多些,转移的回报是多些。

无模型

预测价值函数

蒙特卡洛

​ 所以,对于model-free的情况,它只能用蒙特卡洛的方法采样多个轨迹进行平均,才能得到价值函数啊。而我们的model-base用动态规划预测,它就不用了采样了啊,因为它都知道各个状态的转移情况也就是模型,所以能遍历所有的状态和动作。

时序差分(TD)学习

​ 这里呢,和蒙特卡洛类似,只不过它是走m步(获得m个R)就更更新一下当前状态的价值函数,通过不停地迭代和bootsrapping,达到一个收敛状态,我们就说ok了,价值函数找到了。

下面就是两个的区别,翠花~,上酸。。图:

此前的内容都是value-base RL学派的内容,接下来讨论policy-base Rl学派的内容。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。