Fork me on GitHub

同样一张 2080Ti,跑 30G 的 bisenet 轻轻松松,反而跑十几 G 的更轻量化的网络就跑不动了?

同样一张2080Ti,跑30G的bisenet轻轻松松,反而跑十几G的更轻量化的网络就跑不动了,会不会因为深度可分离卷积和非对称卷积这些pytorch没有优化呢? 比如我一张2080ti,512x1024下bisenetv2可以bs=4,反而跑今年TMM一篇flops只有十G的FBSnet 两张2080ti都跑不起?