Mukund's Portfolio | Batch Normalization: Accelerating Deep Network Training

Ioffe, Szegedy

ICML 2015

Problem

Internal covariate shift: distribution of layer inputs changes during training, slowing convergence.

Normalize layer inputs to have zero mean and unit variance within each mini-batch.

Became standard component in most architectures.