시퀀스 모델은 훈련에 어려움이 많기 때문에 몇 가지 노하우가 필요합니다. 그럼 지금부터 소개하겠습니다.
가능하면 게이트가 있는 셀 사용
게이트 구조는 그렇지 않은 구조에서 발생하는 수치 안정성과 관련된 여러 문제를 해결하여 훈련을 쉽게 만듭니다.
가능하면 LSTM보다 GRU 사용
GRU는 LSTM과 비슷한 성능을 제공하면서도 적은 파라미터와 계산 자원에서 이점을 갖습니다. 파이토치에서는 클래스 교체만으로 LSTM 대신 GRU사용이 가능합니다.
Adam 옵티마이저 사용
안정적인 동시에 다른 옵티마이저보다 빠르게 수렴합니다. 특히 시퀀스 모델에서는 더욱 그렇습니다. 만약 Adam 옵티마이저로 모델이 수렴하지 않는다면 확률적 경사 하강법을 이용해볼 수 있습니다.
그레이디언트 클리핑 사용
수치상의 문제가 발생 시 훈련 과정의 그레이디언트값을 그래프로 출력해 보면 도움이 됩니다. 범위를 가늠한 후에 이상치를 클리핑하면 훈련 과정을 안정시킬 수 있습니다. 그레이디언트를 클리핑하는 습관을 들이는 것이 좋습니다.
조기 종료 사용
시퀀스 모델은 과적합(overfitting)되기 쉽습니다. 검증 세트에서 측정한 오차가 상승하기 시작한다면 훈련 과정을 조기 종료할 수 있습니다.
이전 글 읽기