推荐专题：

900字范文 > 强化学习总结(3-4)——无模型的价值函数的预测蒙特卡洛和TD时序差分方法

强化学习总结(3-4)——无模型的价值函数的预测蒙特卡洛和TD时序差分方法

时间：2021-09-22 23:02:01

相关推荐

强化学习总结(3-4)——无模型的价值函数的预测蒙特卡洛和TD时序差分方法

文章目录

强化学习总结(3-4)无模型预测价值函数蒙特卡洛时序差分（TD）学习

强化学习总结(3-4)

最近呢，搞完有模型的强化学习之后，接下来就开始搞无模型的强化学习，发现还是无模型的强化学习应用场景比较多，而且更加烧脑liaoer。

上面第一张图是我们的model-base RL，第二张图是我们的model-free RL，这里呢，可以看到model-base RL是没有和环境的一个交互，换句话说呢没有实际的交互，因为那个环境中的转移概率P我们是已知的，R也是已知的，我们只需要按照价值函数期望公式就能算出价值函数，以及optimal policy。然鹅，model-free RL它不知道P啊，它木得办法啊，它只能去交互，在实际操作中看看我各个状态间的转移概率是多些，转移的回报是多些。

无模型

预测价值函数

蒙特卡洛

所以，对于model-free的情况，它只能用蒙特卡洛的方法采样多个轨迹进行平均，才能得到价值函数啊。而我们的model-base用动态规划预测，它就不用了采样了啊，因为它都知道各个状态的转移情况也就是模型，所以能遍历所有的状态和动作。

时序差分（TD）学习

这里呢，和蒙特卡洛类似，只不过它是走m步(获得m个R)就更更新一下当前状态的价值函数，通过不停地迭代和bootsrapping，达到一个收敛状态，我们就说ok了，价值函数找到了。

下面就是两个的区别，翠花~，上酸。。图：

此前的内容都是value-base RL学派的内容，接下来讨论policy-base Rl学派的内容。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

强化学习之蒙特卡洛学习时序差分学习理论与实战

2023-05-25

第五章基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现（强化学

2023-03-31

ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实

2018-09-24

4.蒙特卡洛（Monte-Carlo MC）+时序差分（Temporal Difference TD）

2023-02-21

扩展阅读

: 专栏｜学习何时做分类决策深度好奇提出强化学习模型Jumper

: 时序变换的写作方法

: 2017初级会计职称考试强化阶段学习方法介绍

: 收藏｜83篇文献万字总结强化学习之路

: 用什么方法能够使你在做黄金TD交易的时候将风险降至最低?

: 研究：山火的降温效应大于气候模型预测

最近发布

文明学生主要事迹 900字

2024-08-19

熔炉：高一想象作文

2024-08-19

戒网瘾的文章 900字

2024-08-19

陪自己走完任性的岁月-优秀作文作文900字写自己的作文

2024-08-19

母亲形象在文学作品中的呈现：900字作文

2024-08-19

高考英语作文物理老师900字英语作文

2024-08-19

推荐专题

端午作文900字礼物作文900字难忘的一件事900字成长回眸900字叙事作文 900字随笔 900字演讲稿写人的作文900字三国演义读后感900字端午节日记900字难忘的那一刻作文900字逐梦路上作文900字我的老师作文900字 900字记叙文暑假趣事900字借景抒情的作文900字