Xavier 论文疑惑(论文标题:Understanding the difficulty of training deep feedforward neural networks)

9bda5476dd7f4c8eb37448b00bfd8941-QQ20190619173439.png

1.为什么不是 W 推向 0 来实现?

2.对于 tanh,为什么第一层先于后层饱和?
7d34cbc1fa9d4bca9bc6ce1c02e2cb76-QQ20190619173904.png


本文地址:https://www.6aiq.com/article/1560936921352
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出