关于蒙特卡洛的一些问题 #5

Geek-Peng · 2019-03-11T09:09:08Z

您好，我初入RL领域，很是小白。
我的问题是：
蒙特卡洛方法主要针对的是无模型情况下的RL吗？无模型应该是不知道Pss'，不知道状态转移概率是不是就是说不知道状态转移，但是我看您代码中，进行采样时，有用到Env.transform()，在该函数中，用到了状态转移啊。这不就是变成了有模型吗。
不知道我哪块理解错了，希望大佬指正！ @zhuliquan

zhuliquan · 2019-03-12T07:10:58Z

蒙特卡洛模型是无模型的，因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报，用于后面的评估，同时环境也没有显式的告诉自己的转移矩阵。

Geek-Peng · 2019-03-13T11:22:17Z

蒙特卡洛模型是无模型的，因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报，用于后面的评估，同时环境也没有显式的告诉自己的转移矩阵。

多谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于蒙特卡洛的一些问题 #5

关于蒙特卡洛的一些问题 #5

Geek-Peng commented Mar 11, 2019

zhuliquan commented Mar 12, 2019

Geek-Peng commented Mar 13, 2019

关于蒙特卡洛的一些问题 #5

关于蒙特卡洛的一些问题 #5

Comments

Geek-Peng commented Mar 11, 2019

zhuliquan commented Mar 12, 2019

Geek-Peng commented Mar 13, 2019