您好,请问第7章之后的代码资源在哪下载?
您下到了么?书中提到的baselines项目又是什么
A2C 算法的疑问:
最后一个全连接层,基于之前的理解一般是给出一个行动的概率,类似一个分类问题。那么如何同时给出价值的呢?为什么经过一个全连接的计算会有两个不同的输出值?
219页内容有错啊。或者说和原始论文《noisy networks for exploration》中说的都不一样。原论文中是对噪声epsilon作分解(论文中说是为了减少生成随机数的开销),该处是对sigma作分解,说是为了较少参数数量从而减少计算开销。
第150页第2行公式右边求和是否应该从k=0算起? 原式从k=1算起了。
能否给些 5_1.py 的例子? 试了下 python 5_1.py SpaceInvaders-v0,rendering出错了。
您好,请问第7章之后的代码资源在哪下载?
A2C 算法的疑问:
最后一个全连接层,基于之前的理解一般是给出一个行动的概率,类似一个分类问题。那么如何同时给出价值的呢?为什么经过一个全连接的计算会有两个不同的输出值?
219页内容有错啊。
或者说和原始论文《noisy networks for exploration》中说的都不一样。原论文中是对噪声epsilon作分解(论文中说是为了减少生成随机数的开销),该处是对sigma作分解,说是为了较少参数数量从而减少计算开销。
第150页第2行公式右边求和是否应该从k=0算起? 原式从k=1算起了。
能否给些 5_1.py 的例子? 试了下 python 5_1.py SpaceInvaders-v0
,rendering出错了。