Pretend-Economics758 t1_iw0n3l8 wrote on November 12, 2022 at 12:44 AM

I guess it’s due to normalisation idea similar to using dropout to reduce overfitting?

Meddhouib10 t1_iw1zmds wrote on November 12, 2022 at 9:21 AM

But there is no normalization in dropout right ?

Yes there is. During training with dropout probability p you rescale you inputs with a factor 1/(1-p).