미국과 유럽의 은행들은 고객의 계좌에 로그인할 수 있는 안전한 방법으로 음성 ID 를 사용합니다. 무료 또는 저렴한 AI 생성 음성으로 그러한 시스템을 속이는 것이 가능하다는 것이 증명됐는데요. AI로 고객의 개인정보까지 침투할 수 있다니, 꽤나 무섭고 위험해 보이지 않나요? 자세한 소식, 함께 살펴보시죠
Cover Story
인공지능 음성으로 은행 계좌에 침입하기
01 내 목소리 말고 AI로 은행 계좌에 접속하기, 가능하다고?
한 보도 기자가 은행의 자동화된 서비스 라인에 전화했습니다. 우선, 은행은 기자에게 왜 전화했는지 기자의 음성으로 말해달라고 했습니다. 이때, 기자는 큰 소리로 말하는 대신 근처 노트북의 파일을 클릭하여 사운드 클립을 재생했습니다.
"내 잔고를 확인해."
기자의 목소리가 말한 것이죠 하지만 이것은 사실 기자의 목소리가 아니었습니다. 시중에서 쉽게 구할 수 있는 인공지능 기술을 사용하여 만든 합성 복제품이었습니다.
"좋아요."
은행이 대답했습니다. 그 후 기자에게 첫 번째 인증으로 생년월일을 입력하거나 말하라고 합니다. 기자가 생년월일을 입력하자, 은행은 이야기합니다.
"내 목소리는 내 비밀번호다 라고 말해주세요”
다시, 기자는 자신의 컴퓨터의 사운드 파일을 재생했습니다.
"내 목소리는 내 비밀번호야"
은행의 보안 시스템은 음성을 인증하는 데 몇 초가 걸렸습니다. 이후 이야기합니다.
"감사합니다."
이것이 가능하다니, 믿을 수 있나요? 위의 실험을 진행한 기자는 은행 계좌에 침입하기 위해 인공지능으로 작동하는 음성 복제품을 사용했습니다. 기자가 활용한 서비스는 AI 음성 회사 ElevenLabs의 무료 음성 생성 서비스라고 합니다. 그 후, 잔액과 최근 거래 및 이체 목록을 포함한 계좌 정보에 접근할 수 있었다고 합니다.
02 음성 AI, 파급력과 위험성은 ?
미국과 유럽 전역의 은행들은 고객들이 전화로 그들의 계좌에 로그인할 수 있도록 하기 위해 이런 종류의 음성 확인을 사용한다고 합니다. 일부 은행은 음성 식별이 지문과 동등하다고 주장하며, 이는 사용자가 은행과 상호 작용할 수 있는 안전하고 편리한 방법이라고 이야기합니다. 그러나 누구나 아주 저렴하게 때로는 비용 없이 합성 음성을 생성할 수 있는 세상에서, 이 실험은 음성 기반 생체 보안이 완벽한 보호 기능을 제공한다는 생각을 산산조각 냈습니다.
이제 AI 음성의 남용은 사기와 해킹으로 확대될 수 있습니다. 기자가 이 실험을 한 후에 접촉한 일부 전문가들은, 현재 은행들이 음성 인증을 완전히 포기할 것을 요구하고 있습니다. 비록 실제 남용이 드물더라도 말이죠.
소셜 엔지니어링 전문 기업 SocialProof Security의 최고경영자인 Rachel Tobac은 음성 '인증' 전환을 활용하는 모든 조직이 다요소 인증과 같은 안전한 신원 확인 방법으로 최대한 빨리 전환할 것을 추천한다고 말했습니다. 음성 복제는 "실제 사람과 상호 작용할 필요 없이 완료"될 수 있기 때문이죠.
이미 온라인에서 사람들의 목소리를 클립으로 사용하여, 동의 없이 사람들의 목소리를 복제하기 위해 ElevenLabs을 사용하는 경우가 생겨나기도 했습니다. 유튜버, 소셜 미디어 인플루언서, 정치인, 언론인 등 공개적으로 몇 분 동안 목소리를 내는 사람은 누구나 이러한 종류의 음성 복제에 취약합니다.
03 은행이 이야기하는 보이스 ID의 단단함
기자는 영국 Loyds Bank의 계좌에서 테스트했습니다. Loyds Bank는 웹사이트에서 "보이스 ID" 프로그램이 안전하다고 말합니다.
"당신의 목소리는 당신의 지문과 같고 당신만의 독특함입니다"
라고 사이트는 말합니다.
"보이스 ID는 당신의 지문과 같은 당신만의 100가지가 넘는 당신의 목소리의 특징을 분석합니다. 입과 성대를 어떻게 사용하는지, 억양과 얼마나 빨리 말하는지 등등 말이죠. 심지어 여러분이 감기에 걸리거나 목이 아픈 경우에도 여러분을 인식합니다."
라고 덧붙입니다. 미국의 많은 은행은 유사한 음성 확인 서비스를 제공합니다. TD Bank는 다음과 같이 말합니다.
모든 고객은 VoicePrint라고 불리는 것을 가지고 있습니다. 당신의 지문처럼 당신만의 음성을 가지고 있는 사람은 없습니다.
Chase는 Loyds Bank와 마찬가지로 다음과 같이 이야기합니다.
“고객의 음성 프린트가 100가지 이상의 신체적, 행동적 특성으로부터 생성됩니다. 고객은 자신만의 보이스 ID를 가지고 있으며, 따라서 음성 검증은 효과적으로 당신의 신원을 보호합니다"
기자는 Loyds Bank에서만 테스트를 수행했지만, 다른 시스템의 유사한 특성과 기능을 고려할 때 AI로 작동하는 음성에 위험이 있을 수 있습니다. 많은 은행은 사용자들이 전화로 거래 내역, 계좌 잔고 확인, 때에 따라 자금을 이체하는 것과 같은 다양한 은행 기능을 할 수 있도록 합니다.
물론 음성을 활용한 해킹의 경우, 해킹 혹은 공격 대상의 생년월일도 필요합니다. 그러나 수많은 데이터 침해, 브로커 또는 온라인에서 개인 정보를 공유하는 사람들 덕분에 해커들은 생년월일을 쉽게 구할 수 있죠.
Loyds Bank 대변인은 성명에서 다음과 같이 이야기합니다.
"음성 ID는 선택적인 보안 수단이지만, 우리는 그것이 전통적인 지식 기반 인증 방법보다 더 높은 수준의 보안을 제공합니다. 또한, 보안 및 부정행위 방지에 대한 우리의 계층화된 접근 방식이 고객의 환경에 적절한 수준의 보호를 지속적으로 제공하는 동시에 필요할 때 계정에 쉽게 접근할 수 있다고 확신합니다"
Loyds Bank는 합성 음성의 위협을 인지하고 대책을 전개하고 있지만 고객을 상대로 사기 행각을 벌이는 데 이런 음성이 사용된 사례는 보지 못했다고 밝혔습니다. 합성 음성은 사기꾼들에게 훨씬 더 일반적인 방법만큼 매력적이지 않으며, 음성 ID는 전화 금융 사기의 상당한 감소로 이어졌다고 말했습니다. TD Bank, Chase, Wells Fargo는 고객 계좌를 대상으로 AI 기반 음성이 사용되는 것을 인지하고 있는지, 위협을 막기 위해 어떤 완화 조치를 하고 있는지에 대한 질문 요청에 응답하지 않았다고 합니다.
2022년 9월, 변호사들은 발신자를 식별하는 데 사용되는 생체 인식 음성 인화가 캘리포니아 사생활 침해법을 위반한다는 이유로 미국 금융 기관들을 고소했습니다. 기자가 실험 관련 시연 영상을 보낸 뒤, 미국 금융산업을 규제하는 기관 중 하나인 소비자금융보호국(Consumer Financial Protection Bureau, CFPB)은 "CFPB는 데이터 보안에 관심이 있고, 기업들은 엉터리 관행에 대해 책임져야 할것 입니다."고 말하며, 기술과 관계없이 어떤 기업이든 법을 따라야 한다고 덧붙였습니다.
04 AI 음성 만들기, 어떻게 하는 건데 ?
위 실험을 진행한 기자는, 몇 주 동안 몇 가지의 AI 음성 생성 서비스를 테스트했는데, 대부분은 계좌에 접속하기 위해 필요한 기자의 영국 억양을 재현하는 데 문제가 있거나 한계가 있었고, 억양을 잘 다루는 ElevenLabs을 선택한 것이라고 합니다.
음성을 만들기 위해, 기자는 약 5분간의 연설을 녹음해서 ElevenLabs에 올렸습니다. 오디오 클립의 경우, 유럽의 데이터 보호법 섹션을 읽었다고 합니다. 잠시 후, 합성 음성은 ElevenLabs의 사이트에 입력된 모든 텍스트를 말해주며 사용할 준비가 되었습니다.
ElevenLabs 인터페이스 스크린퍗 (출처: MotherBoard)
Loyds Bank 시스템이 음성을 인증할 수 없다고 밝히는 등 은행 계좌 입력 실험은 여러 차례 실패했습니다. 억양을 더 자연스럽게 들리게 하기 위해 Elevenlabs에서 더 긴 본문의 텍스트를 읽도록 하는 등 약간의 수정을 한 후 생성된 오디오는 성공적으로 은행의 보안을 우회했습니다.
ElevenLabs의 웹사이트는 뉴스레터, 책, 그리고 비디오를 위한 목소리를 제공하는 것이 해당 기술의 사용 사례라고 말합니다. 그러나 사람들은 ElevenLabs의 기술을 빠르게 남용했습니다. 4chan의 멤버들은 ElevenLabs를 사용하여 인종차별적이고 트랜스포비아적인 발언을 하는 유명인의 음성을 만들었습니다. 대표적인 사례가 바로, 가짜 Emma Watson이 <나의 투쟁>를 읽는 것이죠.
여기서 잠깐! <나의 투쟁>이 뭐냐구요? 나치당 지도자 아톨프 히틀러가 1925년에 출간한 자서전입니다. 책은 히틀러가 반유대주의자가 된 과정을 묘사하며 그의 정치 사상 및 미래 독일을 위한 계획의 청사진을 보여 준다고 하는데요. 이러한 책을 유명 인사가 읽은 것처럼 꾸며냈다니, 그야말로 기술이 악용된 사례라고 할 수 있겠죠.
이러한 사람들은 AI 음성 생성기를 사용하여 특정 성우의 복제품을 만든 다음 트위터의 게시물에서 배우들의 집 주소를 읽게 하기도 했습니다. 공격자들은 ElevenLabs의 기술을 사용했다고 주장했지만, ElevenLabs는 대상의 주소가 포함되지 않은 다른 클립 하나만 자신들의 소프트웨어로 만들어졌다고 주장했습니다.
은행 음성 ID 또는 AI 음성이 어떻게 남용되고 있는지 알고 있는 것이 있다면,
업무용이 아닌 휴대전화 혹은 컴퓨터를 사용하여 +44 20 81335190, Wickron josephcox의 Signal을 통해 안전하게 Joseph Cox에 연락하거나 joseph.cox@vice.com으로 이메일을 보낼 수 있습니다.
Weekly AI ArXiv
01 650억 매개 변수의 대형 언어 모델 LLaMA
Meta가 최첨단 대형 언어 모델인 LLaMA(Large Language Model Meta AI)를 공개적으로 출시합니다. 가장 작은 모델인 LLaMA 7B가 1조 개의 토큰으로 훈련했다고 합니다. 다른 대형 언어 모델과 마찬가지로 LLaMA는 일련의 단어를 입력값으로 활용하여 작동하며, 다음 단어를 예측하여 텍스트를 생성합니다. 모델을 훈련하기 위해, Meta는 라틴어와 키릴 문자를 가진 언어에 초점을 맞추어, 가장 많은 화자가 있는 20개 언어에서 텍스트를 선택했습니다.
02 jazznet, 음악 오디오 머신러닝 연구를 위한 피아노 데이터 세트
MIR을 위하여 재즈에서 사용하는 패턴을 정리하여 모은 데이터 세트가 공개되었습니다. 자동으로 162,520개의 piano music pattern sample을 생성한 것인데요. 크기는 95GB, 26K 시간이라고 합니다.
연구에서는 음악 이론을 기반으로 Distance-Based Pattern Structures(DBPS) 알고리즘을 만들었습니다. DBPS 알고리즘으로 Pattern Generator를 제공하여 데이터 세트에 없는 패턴을 user가 직접 생성할 수 있습니다. 이전의 DB들은 완성된 데이터 세트들을 주로 공개하였다면, 해당 논문은 패턴 하나하나 설계하여 생성한 것이 특징입니다.
03 Conformer만 있으면 시각적 음성 인식이 가능하다 !
시각적 음성 인식 모델은 계층적 방식으로 시각적 특징을 추출합니다. 하위 레벨에는 입술 또는 얼굴을 묘사하는 원시 픽셀을 처리하는, 제한된 시간 수용 필드를 가진 시각적 프론트 엔드가 있습니다. 더 높은 수준에서는, 큰 시간적 수용 필드에서 프론트 엔드에 의해 생성된 임베딩에 주의를 기울이는 인코더가 있습니다.
이전 연구는 음성 인식에 더 유용한 기능을 추출하기 위해 모델의 시각적 프론트엔드를 개선하는 데 중점을 두었습니다. 놀랍게도, 구글의 이번 연구는 복잡한 시각적 프론트 엔드가 필요하지 않다는 것을 보여줍니다. 정교한 시각적 프론트 엔드에 리소스를 할당하는 대신, 구글은 더 큰 Conformer 인코더와 쌍을 이루는 선형 시각적 프론트 엔드가 더 낮은 지연 시간, 더 효율적인 메모리 사용 및 WER 성능 향상을 초래한다는 것을 발견했다고 합니다. 이는 TED LRS3 데이터 세트에서 시각적 음성 인식을 위한 12.8%의 새로운 최첨단 WER을 달성했는데, 이는 불과 4년 전 오디오 전용 모델의 성능과 견줄 만합니다.
새로운 소식
01 획기적인 소니 AI 운전자, Gran Turismo 데뷔
소니 AI와 Polyphony Digital이 Gran Turismo 7의 초현실적 AI 레이싱 에이전트인 Gran Turismo를 출시했습니다. 해당 에이전트는 소니의 AI 연구원들과 Polyphony Digital 개발자들의 연구를 기반으로 하며, 가장 현실적인 레이싱 시뮬레이션 게임이라는 Gran Turismo의 사명에 부합한다고 합니다.
02 Text-to-Image Diffusion 모델에 조건부 제어 추가하기
해당 연구는 사전 훈련된 대규모 확산 모델을 제어하기 위한 신경망 구조인 ControlNet을 제시합니다. ControlNet은 작업별 조건을 end-to-end 방식으로 학습하며, 훈련 데이터 세트가 작은 경우(< 50k)에도 학습이 견고하다고 합니다. 또한, ControlNet을 훈련하는 것은 Diffusion 모델을 미세 조정하는 것만큼 빠르며, 모델은 개인 기기에서 훈련될 수 있다고 합니다.
03 BLIP-2를 사용한 Zero-shot 이미지-텍스트 생성
해당 아티클에서는 현재 Transformer에서 사용할 수 있는, 최신 시각 언어 모델을 지원하는 Salesforce Research의 BLIP-2를 소개합니다. 이미지 캡션, 프롬프트 이미지 캡션, 시각적 질의응답 및 채팅 기반 프롬프트에 BLIP-2를 사용하는 방법을 설명하고 있으니, 한번 살펴보시죠
지금까지 음성 AI를 활용하여, 고객 계좌에 접근할 수 있다는, 다소 무섭고 위험한 소식을 전달해드렸는데요! 아티클에서는 미국과 유럽의 경우만을 다루었지만, 국내에서도 본격적으로 AI 보이스 금융 서비스가 구현된다고 합니다. 음성으로 간편하게 송급하고 각종 메뉴 및 정보 검색이 가능해지는 세상! 그 편리함과 더불어, 위험성도 더 커 보이는데요. 은행들이 향후 어떠한 대처 방안을 내놓을지 지켜봐야겠죠 ?
특별히 흥미로웠거나 유익했던 소식, 다뤄주었으면 하는 소식이 있다면 댓글로 달아 주시길 바랍니다! 앞으로도 계속해서 유익하고 재미있는 인공지능 콘텐츠로 찾아뵙겠습니다
에디터 허인
문의 사항 manager@deepdaiv.com