⚖️

‘보다 윤리적인 AI’를 위한 시도, Constitutional AI

Created

2023/03/30

Editor

유현

INTRO

‘신드롬’이라고 부를 수 있을 정도로 우리 삶에 많은 변화를 일으키고 있는 ChatGPT, 이에 대응해 구글이 내놓은 Bard, 그리고 최근 출시되어 세간의 주목을 받고있는 GPT-4까지. ‘대화형 AI의 시대’라고 해도 과언이 아닐 정도로 많은 텍스트 생성 모델들이 우후죽순 개발되고 있습니다.

이러한 대화형 AI들, 깜짝 놀랄만큼 똑똑한 답변을 내놓으며 날이 갈수록 좋은 성능을 보여주고 있는데요. 실제로 ChatGPT에게 학교 과제를 부탁하거나, 코드를 대신 짜 달라고 요청하거나, 특정 주제에 관한 글을 써 달라고 요청해 도움을 받은 사례들이 많이 소개되면서 이제는 누구나 그 유용성을 인정하지 않을 수 없는 수준입니다.

그러나 한편으로는, 이 대화형 AI가 점점 발전함에 따라 이들이 내놓은 답변에 대한 윤리적 문제가 하나둘씩 제기되고 있는데요. 무엇이든 대답해주는 AI의 유용성이 비윤리적으로 발휘된다면, 그것은 ‘유용한 AI’의 범주를 넘어 서로를 공격하고 피해 입히는 데에 사용되는 ‘범죄 도구’로 발전할 가능성이 다분합니다. 때문에 대화형 AI에 유용성과 더불어 무해성 즉, 윤리성을 탑재하기 위한 연구가 많이 진행되고 있습니다.

이번 아티클에서는 ‘AI의 윤리성’이라는 화두와 함께, 이 윤리성을 갖춘 ‘개념있는 AI’를 만들기 위한 시도 중 하나인 Constitutional AI에 대해 소개하겠습니다

[ 목차 ]

INTRO

1. 대화형 AI, 똑똑하긴 하지만 윤리성은?

2. Constitutional AI: ‘규칙’이 ‘윤리’를 만든다

3. AI 피드백을 통해 학습된 ‘무해함’

3.1 SL(Supervised Learning) Phase

3.2 RL(Reinforcement Learning) Phase

OUTRO

참고문헌 및 출처

1. 대화형 AI, 똑똑하긴 하지만 윤리성은?

ChatGPT를 비롯한 대화형 AI들이 놀라울 만큼 수준 높은 답변을 내놓으며, 인간에게 실질적으로 도움이 되고 있음은 사실입니다.

따라서 그 유용성이 커질수록 이들이 내놓은 답변이 세상에 끼치는 영향력 또한 필연적으로 커질 수밖에 없습니다. 만일 이들이 유해한 내용을 담은 답변을 생성한다면, 그 유해함으로 인해 다른 누군가가 피해를 입게 될 수도 있죠.

이쯤에서, 기존 대화형 AI에 이들의 윤리성을 엿볼 수 있는 질문을 하면 어떻게 될까요?

Constitutional AI의 논문에서 몇 가지 예시를 발췌했습니다. 보다 긍정적으로 조언해주는가 하면, 답변을 회피하기도 하고, 들키지 않고 상점에서 물건을 훔치는 방법을 친절히 설명해주기도 하는 모습을 볼 수 있네요

이와 같은 AI의 행동은 사용자를 비윤리적인 방향으로 이끌거나, 단순 정보 전달 매체의 역할에 그치며 인간에게 아무런 긍정적인 도움을 주지 못하게 됩니다.

대화형 AI가 유용한 정보를 전달하는 것에서 그치지 않고, 사용자를 좋은 방향으로 이끄는 무해한 답변을 생성하는 쪽으로 발전한다면 좋지 않을까요?

이러한 질문에 기반한 연구가 바로 오늘 소개할 Constitutional AI입니다. ‘Constitution’이라고 일컫는 일련의 ‘원칙’을 제정해 AI가 이를 따르도록 학습시켰다고 하는데요. 이 방식을 통해 대화형 AI를 강화학습 시키면 위 예시 질문에 대한 답변이 다음과 같이 개선된다고 합니다.

이 질문이 시사하는 바가 윤리적이지 않다는 의견을 분명히 밝히며, 더불어 왜 윤리적이지 않은지에 대한 근거를 논리적으로 설명하는 것을 볼 수 있습니다. 답변을 거부하지 않으며, 단순 정보 전달을 넘어 우리 인간에게 훨씬 더 좋은 영향을 줄 수 있도록 개선된 것입니다!

이처럼 무해하면서도 유용한 답변을 생성하는 Constitutional AI, 어떻게 학습되는 걸까요? 자세히 살펴봅시다.

2. Constitutional AI: ‘규칙’이 ‘윤리’를 만든다

Constitutional AI는 기존 대화형 AI가 가진 유용성(Helpfulness)과 더불어 무해함(Harmlessness)까지 갖춘 AI를 만들기 위해 고안되었습니다.

여기서, AI에 ‘무해함’이라는 개념을 어떻게 학습시켰을까요?

Constitutional AI에서는 ‘Constitution’ 또는 ‘Principle’이라고 부르는 몇 가지 원칙을 제정했습니다. 인간이 마땅히 따라야 할 윤리적인 규칙들을 ‘헌법’으로 제정해 놓았듯이, AI가 마땅히 따라야 할 윤리원칙을 정해 학습시킨 것이죠. 사람이 정해놓은 윤리원칙을 철저히 준수하며 텍스트를 생성하기 때문에, 유용하면서도 윤리적인 답변을 얻을 수 있게 되는 것입니다.

Constitution(원칙) 예시

또한 이 Constitution 목록을 통해 무해함에 대한 레이블을 일일이 달지 않아도 AI가 스스로 무해함을 판단하고 개선하는 Self-Improvement 방식의 학습이 가능해졌습니다. 이 방식을 AI 피드백 기반 강화학습(Reinforcement Learning from AI Feedback, RLAIF)이라고 하는데요. 사람이 일일이 레이블을 달아야 했던 기존의 인간 피드백 기반 강화학습(RLHF)에 비해 인간의 개입을 최소한으로 줄이면서 학습에 들어가는 노동력 또한 대폭 줄였다는 의의가 있습니다.

3. AI 피드백을 통해 학습된 ‘무해함’

이제 Constitutional AI의 학습 과정에 대해 살펴봅시다. 학습은 크게 다음과 같은 두 단계로 이루어집니다.

Constitutional AI의 학습 과정

SL(Supervised Learning) Phase
→ 자체 비평과 수정을 통한 지도학습 단계

RL(Reinforcement Learning) Phase
→ ‘무해함’에 대한 AI 피드백을 이용한 강화학습 단계

3.1 SL(Supervised Learning) Phase

Critique → Revision → Supervised Learning

첫 번째 단계는 자체 비평(Self-Critique)과 수정(Revision)을 통한 지도학습 단계입니다.

Initial Response

먼저, 사전학습된 언어 모델을 초기 모델(Initial Model)로 삼아 유해한 프롬프트에 대한 응답을 생성합니다. 이 초기 모델은 무해함에 대한 학습이 되지 않은, 유용하게만 학습된(Helpful-Only) 모델이기 때문에 이 초기 응답은 다소 유해한 내용을 포함할 수 있습니다.

Critique - Revision

다음으로, 미리 지정해둔 Constitution(원칙)에 따라 모델이 스스로 비평(Critique)한 뒤 이 내용을 바탕으로 응답을 수정(Revision)합니다. 이 비평-수정 절차는 몇 회에 걸쳐서 반복되는데, 각 단계마다 Constitution 모음으로부터 무작위로 선정된 Constitution을 따릅니다.

Fine-Tuning

마지막으로, 최종 수정된 응답에 대한 지도학습(SL)을 통해 초기 모델을 Fine-Tuning합니다.

이 과정에서 초기 모델이 원칙에 따른 자체 비평과 수정을 통해 보다 윤리적인 방향으로 미세조정됩니다.

3.2 RL(Reinforcement Learning) Phase

AI Comparison Evaluations → Preference Model → Reinforcement Learning

두 번째 단계는 ‘무해함’에 대한 AI의 선호 피드백을 통한 강화학습(RLAIF) 단계입니다.

이 단계는 무해함에 대한 사람의 선호 레이블을 ‘AI 피드백’으로 대체했다는 점을 제외하면 기존의 RLHF와 비슷한데요. 여기서 AI 피드백이란 AI가 앞서 지정해둔 Constitution(원칙)에 따라 응답을 자체적으로 평가하는 것을 말합니다.

기존 RLHF가 사람의 선호를 바탕으로 선호도 모델(PM)을 만드는 것 같이, RLAIF에서는 일련의 원칙에 대한 초기 모델의 해석을 바탕으로 선호도 모델을 만듭니다.

AI Comparison Evaluations

먼저, 이전 단계인 SL Phase를 통해 훈련된 초기 모델에 유해한 프롬프트를 입력으로 넣어 한 쌍의 응답

A

와

B

를 생성합니다.

다음으로, 원칙 목록에서 원칙 하나를 가져온 뒤, 둘 중 어떤 응답이 이 원칙을 더 준수하는 답변인지 선택하게끔 합니다.

Preference Model

AI가 Chain-of-Thought 추론 과정을 통해 응답을 선택하게 되고, 이를 통해 AI가 생성한 ‘무해함’에 대한 선호도 데이터셋이 만들어집니다. 그리고 여기에 기존의 RLHF를 통해 얻은 유용성 짙은 데이터셋을 혼합합니다.

Reinforcement Learning

마지막으로, 이 AI 선호도 데이터셋으로 학습된 선호도 모델(PM)을 통해 강화학습을 진행합니다. 여기서 선호도 모델이 반환한 AI의 선호도 점수가 강화학습에서의 보상 신호(Reward Signal) 역할을 하는 것이죠.

이러한 두 단계의 학습을 통해 최종적으로 유용성(Helpfulness)을 유지하면서도, 답변을 회피하지 않으며 무해함(Harmlessness)을 갖춘 AI가 학습됩니다.

OUTRO

지금까지 AI에 ‘무해함’을 첨가해서 보다 윤리적인 AI를 만들고자 한 Constitutional AI를 살펴보았습니다! AI가 원칙을 따라 행동하도록 하자는 아이디어도 신선한데, 그것도 자체적인 피드백을 통해 학습된다니, 정말 흥미롭지 않나요?

고성능의 대화형 AI가 쏟아져나오는 요즘 같은 때에 AI의 윤리성에 관한 연구는 이들의 무분별한 사용 및 악용을 막기 위해 가장 필요한 연구 중 하나가 아닐까 싶은데요. 아티클이 흥미로우셨다면 Constitution AI의 논문도 한 번 읽어보시기를 추천드리면서 이번 포스팅을 마무리 하겠습니다. 감사합니다

에디터 @유현

참고문헌 및 출처

[1] Constitutional AI 논문: https://arxiv.org/abs/2212.08073

문의사항 manager@deepdaiv.com