시퀀스 모델은 참조 출력이라는 기대 출력으로 평가합니다. 여러 모델 비교 시에 모델의 출력이 얼마나 참조 출력에 가까운지를 점수로 매기게 됩니다. 기계 번역 작업을 예로 들자면, 아예 이해할 수 없는 번역문을 만들어내는 모델보다는 한 단어만 틀린 모델의 점수가 더 높게 매길 수 있습니다. 다음으로 시퀀스 생성 모델에는 사람 평가와 자동 평가 두 가지가 있습니다.
사람 평가는 한 명 이상의 사람이 모델 출력을 좋다 나쁘다 표시하거나 번역을 고치는 방법입니다. 사람은 평가 속도가 느리고 비용이 많이 들며 구하기도 어려워 자주 사용되지는 않습니다. 또한 주관적인 평가 요소가 들어갈 수 밖에 없어서 사람 평가 시에는 반드시 평가자 간의 일치율이 사용됩니다. HTER(human-targeted translation error rate)은 널리 사용하는 사람 평가 지표로, 사람이 더 자연스러운 번역 결과를 위해 의미에 맞게 개선하고자 시행한 추가, 삭제, 이동 횟수 등을 헤어려 계산한 가중치가 적용된 편집 거리입니다.
반면에 자동 평가는 쉽고 빠릅니다. 생성된 시퀀스를 자동으로 평가하는 지표는 n-그램 중복 기반 지표(n-gram overlap-based metric)과 혼란도(perplexity)가 있습니다. 먼저 n-그램 중복 기반 지표는 참조와 출력이 얼마나 가까운지 n-그램 중복 통계로 점수를 계산합니다. n-그램 중복 기반 지표에는 BLEU, ROUGE, METEOR가 있습니다. 이 중 BLEU(BiLingual Evaluation Understudy)는 기계 번역 논문에서 오랫동안 측정 지표로 사용되어 왔습니다. 참조 데이터가 있다면 BLEU를 빠르고 쉽게 계산할 수 있습니다.
혼란도 역시 정보 이론에 기반한 자동 평가 지표입니다. 출력 시퀀스의 확률을 측정할 수 있을 때 적용이 가능합니다. 시퀀스 의 확률이 일 때 다음과 같이 정의됩니다.
따로 분리해 놓은 데이터셋에서 모델의 혼란도를 측정해 여러 시퀀스 생성 모델을 비교할 수 있습니다. 혼란도는 계산하기 쉽지만 모델 평가에 사용할 때 몇 가지 문제점이 있습니다. 우선 혼란도는 과장된 지표입니다. 위 공식을 보면 혼란도에는 지수 함수가 존재합니다. 때문에 작은 차이가 큰 차이를 만들게 됩니다. 다음으로, 다른 지표와 달리 혼란도의 변화는 모델의 오차율에 직접 반영되지 않습니다. 마지막으로 n-그램 기반 지표처럼 혼란도가 향상되더라도 사람이 판단하기에는 향상되었다고 느끼지 못할 수도 있습니다.
이전 글 읽기