Batch Normalization은 보통 activation layer 전에 사용되어 네트워크 연산 결과가 원하는 방향의 분포대로 나오는 것을 목적으로 한다.
Batch Normalization 방법
1.
mini-batch에서의 평균을 계산한 후 모든 mini-batch마다 평균과 분산을 각각 계산
2.
평균과 분산으로 Normalize
3.
다시 추가적인 scaling(), shifting factor()를 사용
특징
•
gradient가 개선되어 학습이 잘되게 만들어준다.
•
Weight의 초기화에 의존하지 않는다.
•
Regularization의 역할을 하여 Overfitting을 막아준다.
•
Learning rate 가 높아도 사용 가능하다.
•
train data는 batch의 mean을 이용하고, test data는 train을 거친 후 전체 data의 mean를 이용해 정규화를 한다.
논문정리 참고자료