CLEVR 데이터셋은 다음과 같은 이미지와
질문 : Are there an equal number of large things and metal spheres?
답변 : No
Main Dataset
This is the main dataset used in the paper. It consists of:
•
A training set of 70,000 images and 699,989 questions
•
A validation set of 15,000 images and 149,991 questions
•
A test set of 15,000 images and 14,988 questions
•
Answers for all train and val questions
•
Scene graph annotations for train and val images giving ground-truth locations, attributes, and relationships for objects
•
Functional program representations for all training and validation images
CLEVR-CoGenT
stands for Compositional Generalization Test
두 개의 condition 이 있고 각각의 condition 은 Composition 이 다르다. 그렇기 때문에 Condition A 를 훈련시키고 Condition B 를 Evaluation 하는 식으로 검증을 하게된다. CLEVR 보다 좀 더 새로운 visual 구조에 reasoning 을 해야하기 때문에 어렵다.
Condition A
•
Cubes are gray, blue, brown, or yellow
•
Cylinders are red, green, purple, or cyan
•
Spheres can have any color
Condition B
•
Cubes are red, green, purple, or cyan
•
Cylinders are gray, blue, brown, or yellow
•
Spheres can have any color
CLEVR variation
CLEVR-Ref
CLEVR 는 VQA 데이터셋으로 question 을 묻고 answer 를 하는 식인데 CELVR-Ref 는 어떤 객체에 대한 설명을 하고 그 객체를 바운딩박스나 마스크로 나타낸 것이다.
CLEVR-dialog
CLEVR 에서 dialog 를 통해 지속적인 추론을 하는 것이다. 아쉬운 점은 예측모델에게 애매한 질문을 해서 되물어 봄으로서 좀 더 확실한 대답을 알게하는 식의 시나리오보다는 VQA 를 여러개 늘어놓은 형식에 가깝다.
CLEVR-X
Question: There is a purple metallic ball; what number of cyan objects are right of it?
Answer: 1
Explanation: There is a cyan cylinder which is on the right side of the purple metallic ball.
기존 CLEVR 에서 Explanation 이 붙어서 왜 Answer 인지에 대한 factual explanation 을 추가되었다.
CLEVR-Math
Question: Take away 2 matte cylinders. How many objects are left?
Answer: 7
CLEVR-Math 는 만약~ 하면 어떻게 되는가? 와 같이 우선 visual perception 을 통해 상황을 인지하고 그 뒤에 산술 추론을 해서 답을 내놓아야하는 좀 더 어려운 문제라고 할 수 있다.