Search
Duplicate
🤷🏻

#3 AI 면접은 공정할까?

Issue
Issue 3
날짜
2023/08/23
시즌
Season 2
작성자

 Cover Story

AI 면접은 공정할까?

이런 내용이 담겨 있어요!
AI 채용 평가 시스템 문제점을 2가지로 분석했어요.
Amazon의 AI 채용 평가, MS의 Tay 사례에 대해서 소개해요.
공정한 AI 시스템을 위해 무엇을 준비해야 하는지 살펴봐요.
면접에 AI 시스템이 도입된 지 제법 시간이 흘렀습니다. 이제는 제법 많은 기업들이 채용 과정에서 AI 적성 평가 도입했고, 지원자들 사이에서는 AI 면접을 대비하는 방법도 공유되고는 합니다.
기업 입장에서 AI 적성 평가는 많은 장점을 가집니다. 우선, 평가에 드는 시간과 비용을 압도적으로 줄일 수 있습니다. 게다가 (기업 입장에서) 시공간에 대한 제약도 없고, 영상으로 남긴 결과물은 다시 재생도 가능합니다.
면접 지원자 입장에서도 일정한 기준에 의해 평가 받을 수 있다는 장점이 있습니다. 면접관을 대면하지 않아도 돼서 긴장하는 일도 상대적으로 적고, 적어도 취업 비리나 불공정 채용 등의 문제는 생기지 않겠다고 판단하기도 합니다.
하지만 AI라고 항상 객관적이고 정확한 것은 아닙니다. 오히려 인공지능의 편향 가능성과 불투명성 때문에 오히려 잘못된 결과를 도출할 수도 있는데요. 이번 뉴스레터에서는 AI 채용 평가 시스템의 잠재적인 위험 요소를 파헤쳐 봅니다.

AI 채용 평가 시스템 도입의 문제점

AI 채용 평가 시스템의 대표적인 문제로 편향 문제를 꼽습니다. 나이, 성별, 인종, 지역 등 업무 성과 예측과 직접적으로 관련이 없는 기준에 따라 상이한 문제가 발생할 수 있는 것입니다. AI 알고리즘 그 자체로 편향됐다기보다는, 학습에 활용되는 데이터가 편향되어 차별적이거나 잘못된 결과를 낼 수 있습니다.
A. 데이터 균형
아마존 채용 AI 모델의 성차별 사례가 대표적입니다. 아마존은 2014년부터 채용 과정에 도입할 AI를 개발했는데요. 아마존이 개발한 채용 AI 모델은 여성에게 불이익을 주는 것으로 밝혀져 논란이 됐습니다. 과연 개발팀이 의도적으로 차별적인 요소를 부여했을까요? 아닙니다. 과거 남성 합격자가 많았기 때문에 남성을 더 선호했다고 볼 수 있습니다.
그렇다면 데이터의 균형이 왜 중요할까요? 머신러닝 기반의 알고리즘은 주로 정답률을 높이는 것을 목표로 합니다. 전체 100명의 합격자 중에서 남성이 80명, 여성이 20명이라고 가정해보겠습니다. 이 경우, 합격자의 성별을 예측한다고 할 때 100명 모두 남성으로만 예측하더라도 정답률 80%를 얻을 수 있습니다. 만약 다른 특성으로 예측한 성능이 이보다 떨어진다면 AI 모델은 정답률을 높이기 위해 모두 남성으로 분류하는 방향으로 학습할 수 있습니다.
이런 문제를 방지하기 위해 보완할 수 있는 측정 지표(Metric)을 활용하기도 하고, 데이터 비율을 맞추기 위해 소수 데이터를 더 많이 학습하도록 부트스트랩 샘플링(Bootstrap Sampling)을 하기도 합니다. 그러나 어디까지나 보완할 수 있는 방법일 뿐 근본적인 해결은 어렵습니다.
아마존의 경우 성별을 지웠지만 AI가 문체를 통해 성별을 유추하여 문제 해결이 더욱 어려워졌습니다. 아마존 개발팀은 이 편향 문제를 해결하지 못했고, 2017년 팀 해체와 함께 채용 AI 개발 프로젝트는 폐기되었습니다.
B. 데이터 품질
데이터 균형과 동시에 양질의 데이터도 중요합니다. AI 분야에는 Garbage In, Garbage Out(GIGO)이라는 말이 있습니다. AI에 학습의 기반이 된 데이터 품질이 좋지 못하면 학습된 결과물의 품질도 떨어질 수밖에 없습니다. 기존 지원자들에 대한 일관된 평가가 정립되어 있어야 AI가 그 평가 기준을 제대로 학습할 수 있습니다. 반대로 그 평가 기준이 일정하지 않거나 편향적이라면 오히려 잘못된 기준을 학습하게 될 수도 있습니다.
2016년 마이크로소프트의 챗봇 ‘Tay’는 트위터로 대화하면서 사용자들로부터 실시간으로 학습하는 방식의 AI챗봇이었는데요. 사용자들로부터 인종차별과 욕설을 ’너무’ 잘 배워 비윤리적인 발언들을 쏟아내기 시작했습니다. 결국 ‘Tay’는 배포된 지 하루만에 서비스가 중단됐습니다.
그렇다면 채용 평가 과정에서는 어떤 위험성이 있을까요? 유사한 지원서를 보고 면접관 A는 합격, B는 불합격이라고 판단했습니다. AI 모델은 무엇을 선택해야 할까요? 이 경우 중요하지 않은 작은 변수로도 합불 여부가 갈릴 수 있습니다.
기업이 원하는 인재를 공정하게 선발하기 위해서는 기존 지원자들에 대해 상세하고 구체적으로 정량적 평가를 진행해야 합니다. 그러나 모든 기업들이 이 과정을 거치긴 어려울 것입니다. 게다가 정량적인 평가 기준이 알려지면 기업 비밀이 공개된 것과 마찬가지기 때문에 공개하기 어렵기도 하고요.
2020년 7월, 한 시민단체가 13곳의 공공기관을 대상으로 AI 면접에 관한 정보공개 청구를 진행했습니다. 대부분의 기관이 주요한 정보 및 자료에 대해 '시험관리에 관한 사항으로 업무의 공정한 수행에 어려움 발생', '업체의 비밀(저작권, 기술력)에 관한 사항' 등의 사유로 정보를 비공개했는데요. 이에 대해 정보공개 거부처분 취소소송이 성사됐고 2022년 들어 일부 승소했습니다.
각 기관이 공정한 채용을 위해 새로운 기술을 도입하고, 프로세스를 형성하는 것은 오랜 시간이 걸립니다. 사기업의 경우 평가 기준이 어떻게 설정되든 회사의 책임이지만, 공공기관은 다릅니다. 국가적 차원에서 AI 채용 시스템을 도입하고자 한다면 데이터와 알고리즘에 대한 검증이 반드시 필요합니다.
앞서 말한 것과 같은 양질의 균형 있는 데이터셋을 구축해야 하고, 잠재적인 편향을 제거해야 합니다. 채용 AI는 정부의 보조 하에 관련하여 입법이 되고 감시가 시행되어야 공정하게 시행될 수 있는 기술입니다. AI 면접의 효율성에 가려 책임감을 소홀히 해서는 안 될 것입니다.

 deep daiv. 새로운 글

Humans of daiv. #3 강민지

인생은 선택의 연속입니다. AI를 공부하다보면 중대한 선택의 순간을 마주하게 되는데요. AI 세계가 워낙 방대하다 보니 내가 이 세계에 계속 발을 들여 놓아도 될지 고민하게 됩니다. 그 선택의 갈림길에서 다시 AI를 택하여 취업에 성공한 강민지의 이야기를 들어보았습니다.
문의사항 manager@deepdaiv.com