Search
Duplicate

Batch Normalization

Batch Normalization은 보통 activation layer 전에 사용되어 네트워크 연산 결과가 원하는 방향의 분포대로 나오는 것을 목적으로 한다.

Batch Normalization 방법

1.
mini-batch에서의 평균을 계산한 후 모든 mini-batch마다 평균과 분산을 각각 계산
2.
평균과 분산으로 Normalize
3.
다시 추가적인 scaling(γ\gamma), shifting factor(β\beta)를 사용

특징

gradient가 개선되어 학습이 잘되게 만들어준다.
Weight의 초기화에 의존하지 않는다.
Regularization의 역할을 하여 Overfitting을 막아준다.
Learning rate 가 높아도 사용 가능하다.
train data는 batch의 mean을 이용하고, test data는 train을 거친 후 전체 data의 mean를 이용해 정규화를 한다.
논문정리 참고자료