Xavier 论文疑惑(论文标题:Understanding the difficulty of training deep feedforward neural networks)

9bda5476dd7f4c8eb37448b00bfd8941-QQ20190619173439.png

1. 为什么不是 W 推向 0 来实现?

2. 对于 tanh,为什么第一层先于后层饱和?
7d34cbc1fa9d4bca9bc6ce1c02e2cb76-QQ20190619173904.png


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com