📟

인공지능은 사람처럼 질문을 감지해서 이미지를 이해할 수 있을까?

소속팀

트렌드 리서치 팀

팀명

픽셀 휴먼

간단한 소개

안녕하세요! deep daiv 여름 기수 Trend research팀인 픽셀 휴먼팀입니다. 

픽셀 휴먼으로 팀 이름을 선정한 이유는 multimodal을 연구라는 것은 텍스트 외에도 음성, 제스처, 시각 등을 통해 학습을 시키는 것이 사람과 비슷한 과정이기 때문입니다!
저희가 소개해드리고 싶은 내용은 multimodal visual grounding 관련된 내용입니다. 시작하겠습니다

왼쪽 질문에 대해서 고민하셨고, 질문에 대한 이미지들의 관계를 확인하셨나요? 정확한 이해를 AI라는 것이 어떻게 이해할지 궁금해서 해당 주제를 들고왔습니다!

1-2. VQA & 이미지 캡셔닝 차이점

2. 활동 및 소개 내용

2-1. 논문 리스트업

2-2. Clevr, COCO dataset에 대해서 비교해보자

3-3. (1) 결과에 대한 우리의 생각

3-3. (2) 데이터 형태에 대한 파악

3-3. (3)이런 분야에 관심을 가지면서 연구동향 파악

1. Multimodal은 무엇일까?

멀티모달 정의

다양한 양상을 가지는 데이터들을 다룰 수 있는 기술이며, 원 단어의 의미처럼 시각, 청각 처럼 인간의 감각 기관의 특징과 연관되어있습니다. 물론 Mutli-modal learning 분야에선

인간의 오감

에는 속하지 않지만 컴퓨터에서는 사용할 수 있는 기술인

GPS, 센서

등 또한 함께 사용합니다.

현재 많은 기업 및 소비자(사람들)은 데이터를 통해서 의사 결정이라는 것을 하기를 원하고 있습니다. 그에 따라서 기존 연구들처럼 NLP, CV, Time-series처럼 각각 발전하는 방향성도 좋지만 두 개 이상의 modality가 입력값으로 들어왔을때 의사 결정 부분에서 더 좋은 결과를 가져다 줄 수 있다는 점을 높게 평가하고 있습니다.

1-1. 국내외 기업의 관심된 분야

해당 기술에 대해서 기업들은?

Google Lens를 통해서 사진을 찍고, 관련된 사진에 대한 텍스트를 입력해줬을 때 필요한 정보로 바꿔줍니다. 이것은 의사결정에 도움을 주는 방법이기도 하고, 이미지만 분석한 결과와 텍스트만 분석한 결과와는 다르게 정확하게 사용자가 뭐가 문제인지 확인할 수 있습니다.

현재 아래있는 예시뿐만 아니라 다른 예시로 줄무늬 셔츠를 사진으로 찍은 후에 “다음과 같은 패턴의 양말”이라고 검색을 하면 해당 결과(줄무늬 패턴의 양말)을 검색해줍니다.

Google의 구글 렌즈

Google에서 발표된 내용 Google is updating its visual search tool Google Lens with new AI-powered language features. The update will let users further narrow searches using text.

네이버의 ‘옴니서치(OmniSearch)’

1-2. VQA & 이미지 캡셔닝 차이점

visual question answer과 image captioning 모두 사실 어려운 task이다. 왜냐하면 이미지를 보면서 우리가 해석하는 방식과 중점적으로 얘기하는 부분이 다르기 때문이다.

AI 모델은 데이터를 뭘 주는가에 따라서 정답을 다르게 도출하게 됩니다. 이때 학습한 데이터셋이 뭐냐에 따라서 laye의 변형에 따라서 결과의 차이는 생각보다 많이 나고있다는 점을 많은 논문과 그 논문의 실험 결과에서 확인할 수 있다.

•

Visual Question Answering (VQA) refers to the process of providing an answer to a question given a visual input (image or video)

◦

vqa은 이미지의 내용에 대해 질문하면 AI가 대답하는 방식 → Text(yes or no, 단어, 문장) or number

해당 model은 VQA논문의 모델을 이용해서 설명을 위한 인용한 사진입니다!

•

Visual Captioning (VC) generates descriptions for a given visual input

◦

image captioning은 입력(input)이 이미지가 되고, 출력(output)은 문장이 된다.

이미지 캡셔닝은 기계변역과 다르게 구조에서 input이 바뀐 것을 확인할 수 있다. 물론 image가 들어오면 image feature을 뽑아내는 행위를 하고나서 text로 변환하는 과정을 거칠 것이다.

2. 활동 및 소개 내용

저희는 그 중에서 Visual Language tasks에 해당할 수 있는 논문들중에서 흥미로운 논문들을 선정했습니다.

2-1. 논문 리스트업

MDETR 간단한 논문 리뷰

Clipcap 간단한 논문 리뷰

2-2. Clevr, COCO dataset에 대해서 비교해보자

clevr dataset

Clevr 데이터셋이란?

COCO dataset

COCO 데이터셋이란?

3. 논문 연구 주제를 찾아가는 과정

3-1. 가정/가설

Clipcap의 모델이 image catpioning 자체의 성능이 상위 3위권안에 드는 모델은 아니지만 성능이 좋게 나온다. → “LLM이 reasoning 성능을 활용하면 visual grounding answering 자체를 잘할 수 있지않을까?”라는 생각에 의해서 실험을 해보겠습니다

3-2. 실험

이전에 설명드렸던 실험 가정에 대해서 저희가 선택한 내용은 다음과 같습니다. 복잡한 질문에 대한 이해가 얼마나 가능한지 파악하기 위해서 clevr dataset을 이용하기로 선택했습니다. 이를 통해서 VQA를 가능할까? 설명을 하는 것도 이해를 하는거지만, 이미지와 텍스트를 진짜 이해한다는 것은 이미지를 설명하는 것 이상으로 질문을 하고 답변을 하는게 더 어려운 난이도이다.

Clipcap을 이용해서 train

Input : (Image, Quetion, answer) infer input (Image, Quesion) infer output (answer)

Large Language Model 의 representation space 에 Image embedding을 mapping하는 함수만 훈련

⇒ LM 의 weight 는 그대로 유지되기 때문에 language prior를 유지할 수 있다는 장점이있다

3-3. 결과

우리는 spatial reasoning 데이터셋인 clevr와 같은 데이터셋에서 정확도가 15퍼센트 정도의 성능이 나오지 않는 현상을 확인하였다.

결과

AI답지않은 결과이죠? → fine tuning을 하면 물론 성능은 아주 조금 늘어나긴 했습니다. 하지만, image representation에 대한 모델이 정확한 이해도가 없는 상태에서 아무리 성능을 올리는 것이 중요한 것이 아니라고 판단하였다.

Visual Question Answering(VQA) 의 경우 (예시)와 같이 Multi-step reasoning 이 필요한 경우가 존재한다

예시

[가정/가설]예를 들어 원기둥이 직육면체보다 몇개 많냐는 질문에 원기둥을 찾고 직육면체를 찾은 후 원기둥 - 직육면체를 비교해야한다. 이 때 Reasoning 이 필요한 경우는 Large Languauge Model 의 Language prior 가 도움이 될것이라고 생각했다.

[실험결과 해석]하지만 이런 가정과는 다르게 Language Prior 보다는 Spatial 정보를 파악하는 것이 매우 중요함으로 간접적으로 깨달았다. (예시)에서와 같이 Spatial 정보를 uni, bi -relation 두개에 대해 간단한 계산을 해본다면 벌써 nC2 + N 개의 representation 을 함유해야하기 때문이다.

[결론]일반적으로 self-supervised 방식으로 학습된 모델의 경우에 특정 semantic 에 치중하는 경향이 크기 때문에 이런 이미지를 진짜 이해하고 visual reasoning 하는 성능이 현저히 떨어질수 밖에 없다고 결론을 내렸다

Limitation and Findings 

3-3. (1) 결과에 대한 우리의 생각

Question answering, Dialog은 VL task 중에서도 NLP을 확장해서 정확도를 올리는 내용이라면 정확한 reasoning 해당하는 task는 중점적으로 확장시켜서 정확도를 올리는 느낌이다.

VQA은 이젠 image feture에 대한 정확한 reasoning 성능을 향상시키기 위해서 CV task를 향상시킬 방향성을 함께 찾아보면 좋지않을까라는 생각이 든다. Clipcap의 이전 모델인 CLIP은 context 기반으로 이미지를 특정 레이블로 분류하는 Natural Language for Visual Reasoning에 해당하는 논문이자 모델이다. 그래서 결론적으로 image representations과 text representations의 연결에 대해서 중점을 다루고 있다.

3-3. (2) 데이터 형태에 대한 파악

모든 연구자 및 데이터가 필요한 분들은 AI허브 사이트를 통해서 원하는 데이터를 찾을 수 있다.

해당 프로젝트의 모델은 VQA처럼 이미지는 resnet50을 통해서 image feature을 추출했고, question은 bert를 통해서 벡터 추출했다. 그리고 추출된 두 벡터에 대해서 point*wise과정을 거치고 분류했다.

{
			"image_id": *****,
			"image": "47d03f23c4a242f287ae87ca64a28936.jpg",
			"category": "가전(가구)",
			"weather": "흐림"
},
{
			"question_id": 7243968,
			"image_id": *****,
			"question": "의자는 나무 재질인가요",
			"answer": "아니요",
			"answer_type": "부정"
}
JSON
복사
json 파일 형태는 같지만,임의로 적어놓은 데이터 파일입니다.

3-3. (3)이런 분야에 관심을 가지면서 연구동향 파악

NLVR - Natural Language for Visual Reasoning

VR - Visual Retrieval

VG - Visual generation(DALL-E)

VLN - Vision-Language Navigation와 같은 cv, nlp task 모두 확장시켜서 성능을 올릴 수 있는 분야에 대해서 지속적으로 연구 및 동향을 파악해보는 것도 중요할 것 같다.

추가적으로 visual representations을 강화하려면 어떤 방식이 요즘 Vision에서 발전하고 있는지를 파악할 필요성이 있다.