대표적인 MSCOCO의 VQA데이터셋에는 25만장의 이미지, 76만개의 질문이 있었습니다. 뭐 이건 무슨 동물이냐 하는 간단한 문제부터, 사람은 할 수 있는데 로봇은 구분하지 못하는 이미지를 찾아봐라 라는 이상한 것까지, 질문은 다양합니다. 사진 속에 개가 몇 마리 있는지 뭐 이런것도 포함됩니다.
관계적인 문제를 푸는게 어렵고, 그래서 VQA가 필요한거에요. 그래서 그에 맞는 다양한 질문이 데이터셋에 들어가있습니다.
Given a dataset of paired images and captions
COCO 데이터셋은 80개의 클래스를 가지고 있고, nocaps 데이터셋은 본 적 없는 클래스 생성물을 측정하기 위해서 디자인되어있다. nocaps 데이터셋은 3개로 구분해보면 COCO 데이터셋에 속해있는 클래스, 새로운 클래스와 COCO 데이터셋내에 있는 클래스함께 있는 것, 아예 새로운 클래스만 존재하는 것
<Conceptual Captions dataset 구조 보기>