논문 : The YouTube Video Recommendation System
저자 : James Davidson, Edouard Grave, Junning Liu, Palash Nandy, Taylor Van Vleet
Introduction
이 논문은 YouTube 추천시스템 논문 시리즈 중 제일 처음 2010년에 나온 논문입니다. 그 이후 YouTube는 2016년, 2019년 추천시스템을 관련해 논문을 공개했습니다.
YouTube는 쏟아지는 정보 환경에서 정보 검색 및 컨텐츠 검색을 위한 핵심 방법으로 개인화 추천시스템을 도입했습니다. User의 과거 활동을 바탕으로 개인 맞춤 비디오 set 제공 방안을 제시합니다.
User는 아래와 같이 3가지 방법으로 YouTube를 이용합니다.
1) 검색이나 다른 곳을 통해 유입된 경우
2) YouTube 검색을 통해 특정한 비디오를 찾고자 하는 경우
3) 흥미로운 영상을 찾아 돌아다니는 경우
YouTube가 추천시스템을 구축하는데 있어 가장 처음으로 직면했던 문제는 메타데이터의 부재였습니다. 콘텐츠에 대한 feedback도 명확하지 않다는 점 또한 문제점이 되었습니다.
System Design
추천시스템은 크게 Candidates와 Ranked Results로 나누어집니다. User의 시청, 구독, 좋아요 등을 seed로 하여 co-visitation이 일어난 비디오를 추려내 candidates를 생성하고 그 안에서 ranking을 매기는 과정을 거치게 됩니다.
1) Related Videos
비디오 에서 유사하거나 관련된 비디오 세트로 매핑을 하여 구성하는 과정입니다. 먼저 사용자가 주어진 seed 동영상 를 시청한 후 시청할 가능성이 높은 동영상을 정의합니다.
아래의 Related Score 식의 경우 매핑을 계산하기 위해 Rule-Mining이나 Co-visitation Counts로 알려진 기술들을 이용하여 주어진 24시간 동안 각 동영상 (, )에 대해 공동 시청 빈도를 계산합니다.
•
: 공동 방문 횟수
•
, : 각 동영상 , 에 대한 모든 세션의 총 발생 횟수
•
: seed 비디오와 후보 비디오의 인기를 고려한 정규화 함수로 전 세계적인 인기를 곱한 값
위 식을 통해 나온 점수를 통해 순위를 매겨 상위 N개의 후보 비디오를 선정하게 됩니다.
2) Generating Recommendation Candidates
YouTube는 개인별 맞춤 추천시스템을 도입하기 위해 관련 비디오 연관 규칙을 User의 개인 활동과 결합합니다. User가 시청한 비디오, 좋아요 구독 등이 이루어진 비디오들을 포함하고 이를 seed set이라고 부릅니다.
이 seed set() 각각의 비디오()와 관련된 비디오()를 고려할 때 비디오 세트의 결합을 이라고 합니다.
•
: seed set 비디오에서 n-거리 이내에 있는 비디오 세트
하지만 이렇게 되면 user의 관심과 매우 가까운 컨텐츠의 경우 추천되지만 새로운 동영상은 추천되지 않는 문제가 생깁니다. 이를 위해 도입한 것이 Transitive Closure를 설정하여 후보군을 확장합니다.
최종 후보군은 아래 식과 같이 정의되며 각 비디오는 seed set에 있는 하나 이상의 비디오와 연결됩니다.
3) Ranking
Candidiates set를 생성하게 되면 이제 비디오 품질, 사용자 특이성, 다양성에 따라 순위를 매깁니다.
User에게 계속 유사한 영상만 추천하면 안되기 때문에 추천 영상의 수에 제한을 두는 방법을 이용해 추천하고자 합니다.
Conclusion
YouTube 추천시스템은 온라인 A/B 테스트와 CTR로 테스트해본 결과 2배가 넘는 효율을 보이는 것을 확인할 수 있습니다.
Reference
The YouTube Video Recommendation System https://www.inf.unibz.it/~ricci/ISR/papers/p293-davidson.pdf