115页的[‘add’]节点是加法操作的默认名字吗?
请教一个问题:第5章MNIST数字识别问题的代码中,计算softmax交叉熵的函数中使用未经滑动平均的y作为logits能够正常学习,获得预期的结果,但一旦将logits改为使用滑动平均模型计算出的传播结果**erage_y,则学习过程无任何效果,识别正确率在整个训练过程中都维持在一个极低的水平。使用y和**erage_y作为softmax交叉熵函数的logits为何会存在这样的差异?
另一个问题是,源码中为何在计算softmax交叉熵时使用的logits是未经滑动平均的y,而在计算模型准确率时用于和真值argmax(y_, 1)比较的又是argmax(**erage_y, 1)?
训练时采用原变量来降低LOSS,只是在测试与推广时采用滑动平均后的变量,从而增加模型的适应性。滑动平均变量不是用来训练的,训练时用滑动平均变量,训练起来会很慢,因为仔细观察会发现滑动平均变量初始时m1=v1,m2=0.99m1+0.01v2=0.99v1+0.001v2,也就是说变化很小,所以用他训练不可行。
这本书的示例代码及资源文件在哪下载,书上说是在【下载资源】处下载,可是我没有找到这个地方
眼神不好就直接ctrl+f 下载资源
115页的[‘add’]节点是加法操作的默认名字吗?
请教一个问题:第5章MNIST数字识别问题的代码中,计算softmax交叉熵的函数中使用未经滑动平均的y作为logits能够正常学习,获得预期的结果,但一旦将logits改为使用滑动平均模型计算出的传播结果**erage_y,则学习过程无任何效果,识别正确率在整个训练过程中都维持在一个极低的水平。使用y和**erage_y作为softmax交叉熵函数的logits为何会存在这样的差异?
这本书的示例代码及资源文件在哪下载,书上说是在【下载资源】处下载,可是我没有找到这个地方