#2 인공지능이 그린 그림으로 마케팅을 한다고?

DALL-E에 대해서는 이번에 자세하게 다루지는 않을 것이지만, DALL-E에 대한 설명은 저희가 제작한 이전 포스트를 참고해주시기 바랍니다. 짧게 설명하면, DALL-E 2 텍스트를 CLIP 이미지 임베딩을 생성하는 인코더와 이미지 임베딩을 이미지로 생성하는 디코더로 이루어져있습니다. 디코더에는 Auto Regressive 모델과 Diffusion 모델을 비교하여, Diffusion 모델을 선정하였다고 합니다.

Zero-Shot Text-to-Image Generation

논문 : Zero-Shot Text-to-Image Generation 저자 : Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever

https://deepdaiv.oopy.io/paper/dall-e

OpenAI의 공식 블로그에는 DALL-E 2의 비전이 적혀 있습니다. 그 비전은 사람들이 그들 스스로를 창의적으로 표현할 수 있도록 하는 것입니다. 한편으로 인공지능이 세상을 어떻게 인식하는지 보여주기도 하고요.

Heinz는 이런 DALL-E 2의 비전에 따라 그들의 광고 마케팅을 성공시켰습니다. 인공지능이 케첩을 하인츠라고 인식하고 있다는 사실을, 아주 창의적인 방법으로 전달했으니까요.

여러분의 창의력이 인공지능 기술을 만난다면, 그 세상은 무한할 것입니다. 여러분의 창의력을 마음껏 뽐내보세요!

DALL·E 2

Thanks to those who helped with and provided feedback on this release: Sandhini Agarwal, Sam Altman, Chester Cho, Peter Hoeschele, Jacob Jackson, Jong Wook Kim, Matt Knight, Jason Kwon, Anna Makanju, Katie Mayer, Bob McGrew, Luke Miller, Mira Murati, Adam Nace, Hyeonwoo Noh, Cullen O'Keefe, Long Ouyang, Michael Petrov, Henrique Ponde de Oliveira Pinto, Alec Radford, Girish Sastry, Pranav Shyam, Aravind Srinivas, Ilya Sutskever, Preston Tuggle, Arun Vijayvergiya, Peter Welinder

https://openai.com/dall-e-2/

deep daiv. 새로운 글

다양한 유사도 계산 이해하기

https://deepdaiv.oopy.io/articles/3

‘유사도'란 두 데이터가 얼마나 같은지를 나타내는 척도입니다. 오늘은 컴퓨터가 수행하는 다양한 유사도의 계산 방식을 살펴봅시다 !

유사도를 측정하기 위해서는 2가지를 중요하게 생각해야 합니다. 첫 번째는 어떠한 값을 이용해 유사도를 측정할 것인지, 즉 어떠한 특징으로 데이터를 분류할 것인지를 고민해야 합니다. 두 번째는 어떤 방법을 이용해서 유사도를 계산할지 입니다.

유사도에는 크게 평균제곱차이 유사도, 코사인 유사도 그리고 피어슨 유사도가 있습니다. 평균제곱차이 유사도는 이름에서 알 수 있듯이, 동일한 항목에 대한 두 평가치의 차이를 제곱한 후 평균값을 내는 방식입니다. 지난 시간에 살펴본 협업 필터링에서 사용 가능하지요.

코사인 유사도는 두 벡터 사이의 사잇각으로 유사도를 측정하는 것인데요. 구체적인 공식은 글을 통해서 살펴보면 이해하기 쉬울거에요. 꼭 살펴보세요 마지막으로 피어슨 유사도는 두 변수의 관계가 가상의 선에 얼마나 밀접하게 닿아있는지를 알려주는 수치인데요. 통계학에서는 주로 상관계수를 의미하지요.

이번 글에서는 유사도 계산을 위한 여러 수학적 개념을 쉽게 설명했습니다. 유사도 계산이 추천시스템 구축에 있어서 중요한 만큼, 이번 글이 추천시스템을 향해 한 발짝 더 나아가는 기회가 되었으면 좋겠습니다

생활 속 NLP 오후편

생활 속 NLP - 오후 편

21세기 대한민국의 대학생 이딥다의 방에서는 벌써 세 번째 알람이 울리고 있습니다. 알람이 한참을 울리던 끝에 딥다는 미동도 않은 채로 "시리야, 알람 꺼줘"라고 말합니다. 시리의 답을 들으며 힘겹게 몸을 일으킨 딥다는 부엌으로 걸어가 물을 한 잔 마신 뒤, 식탁 위에 있던 핸드폰으로 어제 올라온 뉴스가 요약된 메일을 읽기 시작해요.

https://deepdaiv.oopy.io/articles/4

지난 주에는 생활 속 NLP 오전편을 살펴보았습니다. 이번 주에는 우리의 오후 생활 속에 NLP에 어떻게 스며들어 있는지 살펴볼 것인데요. 바로 과제와 관련된 AI 기술과 AI 면접 두 가지입니다.

과제를 도와주는 NLP

학교에서의 수행평가, 회사에서의 보고서 등 문서 관련 작업을 할 때 우리가 종종 사용하는 것들이 있습니다. 번역, 맞춤겁 검사, 표절률 검사 등이지요.

파파고와 같이 우리가 흔히 이용하는 번역 서비스는 현재 인공신경방 기반 번역 기술(NMT, Neural Machine Translation)의 단계에까지 이르렀습니다.

유명한 맞춤겁 검사 grammarly가 있죠. 검사 단게는 크게 세 단계로 나뉩니다. 사용자의 텍스트 입력 및 전처리 → AI 모델 적용 → 문법 교정 결과 출력 입니다. grammarly 블로그에는 grammarly 서비스에 적용된 기능, 작법 및 문법, 관련 트렌드에 대해 설명하는 글이 있으니 참고해 보면 좋을 것 같네요

레포트를 제출할 때 흔히 사용하는 표절률 검사를 빼놓을 수 없죠. 표절률 검사는 한 자료와 N개의 문서를 동시에 비교하며 표절한 영역을 곧바로 검출하는 방식을 사용합니다. 이때 한 논문과 한 논문을 비교하기 보다는 비교하고자 하는 자료들을 모두 파편화시켜 각각을 비교할 수 있도록 하는 방식을 포함시킵니다.

AI 면접

최근 객관성 및 공정성, 효율성을 앞세우며 AI 면접이 떠오르고 있습니다. AI 면접에서는 과연 어떤 기술을 사용하는 것일까요? 분석 기술은 V4 분석 기술과 P6 분석 기술 크게 2가지로 나눌 수 있습니다. 기술에 대한 구체적인 설명은 이번주 글을 통해 알아보아요

AI 면접에도 한계점이 있습니다. 투명성, 신뢰성 그리고 향후 성장 가능성인데요. 이 한계점들로 인해 구글, 아마존 등의 글로벌 기업은 AI 면접 자체만을 활용하기 보다는 지원자의 자기소개서 표절 여부를 살피는 데에 AI를 활용하고 있습니다. 앞으로 국내 기업들은 어떻게 채용 방식을 바꿀지 지켜보며 면접 트렌드를 익혀 나가면 좋을 것 같네요

2주에 걸쳐 우리 생활 속 NLP 사례들을 살펴보았는데 어떠셨나요? NLP와 조금이라도 친밀해질 수 있는 기회였으면 좋겠어요 NLP와 관련된 여러 글을 앞으로도 소개할 예정이니, 많은 관심 부탁드립니다

Weekly AI ArXiv

세상의 모든 언어를 위한 번역기: No Language Left Behind

Meta에서 200개의 언어를 번역할 수 있는 모델을 공개했습니다. 모델의 이름은 NLLB-200. NLLB는 No Language Left Behind의 약자로 어떤 언어도 소외되어서는 안 된다는 취지에서 지어졌습니다.

이뿐만 아니라 Meta는 FLORES-200이라는 새로운 데이터셋을 만들었는데요, 이 모든 것은 오픈 소스로 공개되었습니다.

다중 언어 번역 모델의 장점은 2가지를 꼽을 수 있습니다. 유사한 언어간의 특징을 추출하면 더 적은 리소스를 활용할 수 있다는 것과 하나의 언어를 학습하는 방법으로 다른 언어에 적용할 수 있다는 점입니다.

하지만 100개 이상의 언어를 번역하는 문제는 달라집니다. 소수 언어는 학습 데이터가 적기 때문에 과적합되는 경향이 있는데요, 이를 해결하기 위해서 3가지 방법을 활용합니다.

Regularization and Curriculum Learning

Self-supervised Learning

Diversifying back-translation

더욱 자세한 내용은 아래의 Meta AI 블로그 글을 참고해주세요!

200 languages within a single AI model: A breakthrough in high-quality machine translation

Meta AI has built a single AI model, NLLB-200, that is the first to translate across 200 different languages with state-of-the-art quality that has been validated through extensive evaluations for each of them. We've also created a new evaluation dataset, FLORES-200, and measured NLLB-200's performance in each language to confirm that the translations are high quality.

https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation/

객체 탐지 끝판왕: YOLO v7

Object Detection의 시리즈 YOLO v7이 발표되었습니다. 이번 YOLO 모델은 또다시 새롭게 객체 탐지 분야에서 SOTA를 달성했습니다.

YOLO v7 모델의 특징으로 4가지를 꼽을 수 있습니다.

Extended Efficient Layer Aggregation

Model Scaling Techniques

Re-parameterization Planning

Auxiliary Head Coarse-to-Fine

YOLOv7 - A breakdown of how it works

Realtime object detection advances with the release of YOLOv7, the latest iteration in the life cycle of YOLO models. YOLOv7 infers faster and with greater accuracy than its cohorts, pushing the state of the art in object detection to new heights.

https://blog.roboflow.com/yolov7-breakdown/

How to Train YOLOv7 on a Custom Dataset

Hot on the heels of MT-YOLOv6, a new YOLO dropped this week (and this one is a doozy). YOLOv7 was created by WongKinYiu and AlexeyAB, the creators of YOLOv4 Darknet (and the official canonical maintainers of the YOLO lineage according to pjreddie, the original inventor and maintainer of the YOLO architecture).

https://blog.roboflow.com/yolov7-custom-dataset-training-tutorial/

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100.

https://arxiv.org/abs/2207.02696

GitHub - WongKinYiu/yolov7: Implementation of paper - YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

Implementation of paper - YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors MS COCO Docker environment (recommended) Expand # create the docker container, you can change the share memory size if you have more.

https://github.com/WongKinYiu/yolov7

YOLO가 무엇인가요?

YOLO 모델은 2016년에 등장한 Single-Stage Object Detection 모델입니다. 자세한 내용은 아래의 deep daiv. 포스트를 참고해보세요!

You Look Only Once : Unified, Real-Time Object Detection

논문 : You Look Only Once : Unified, Real-Time Object Detection 저자 : Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

https://deepdaiv.oopy.io/paper/yolov1

수학 문제 푸는 인공지능: Minerva

수학 문제를 푸는 인공지능을 들어보셨나요? 이 분야는 자연어처리와 관련이 깊습니다. 하지만 인간의 언어를 이해하는 것과 달리 달리 수학 문제를 풀 때는 정량적인 추론(Quantitative Reasoning)이 필요합니다. 이를 위해서 수학과 과학에 쓰이는 특수한 표기법과 공식에 대한 깊은 이해가 필요하기 때문에 이 분야에서 인공지능이 인간의 수준을 따라오기에는 아직 먼 것처럼 보였습니다.

하지만 Minerva는 그 간극을 단숨에 좁혀 버립니다. Minerva는 초거대 언어모델인 PaLM을 기반으로 합니다. 여기에 arXiv에서 수집한 논문 데이터의 수학 / 과학적 표현들을 더하여 학습하였습니다.

Minerva에 사용된 학습 방법론은 아래와 같습니다.

chain of thought

scratchpad

majority voting

Minerva로 모델로 실제 문제들을 풀어보게 한 결과 기존 인공지능 모델이 얻은 점수를 훨씬 뛰어 넘는 정확도를 보였습니다.

Minerva: Solving Quantitative Reasoning Problems with Language Models

Language models have demonstrated remarkable performance on a variety of natural language tasks - indeed, a general lesson from many works, including BERT, GPT-3, Gopher, and PaLM, has been that neural networks trained on diverse data at large scale in an unsupervised way can perform well on a variety of tasks.

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html?m=1

문의: manager@deepdaiv.com