여배우 600명과 GPT-4o 음성모델 비교해봤더니…"스칼렛 요한슨과 매우 흡사"
"스칼렛 요한슨 목소리 베꼈다" 의혹 커지는 오픈AI 애리조나주립대 연구진, 여배들과 AI 목소리 분석 연구진 "요한슨과 매우 흡사하지만, 미묘한 차이 존재"
오픈AI가 사람과 자연스러운 말투로 새 인공지능(AI) 모델 ‘GPT-4o(포오)’를 공개한 이후 목소리 도용 논란에 휩싸였다. 음성모델 중 하나인 스카이(Sky)의 목소리가 배우 스칼렛 요한슨의 목소리와 너무 비슷하게 들린다는 의견이 쇄도하면서부터다.
요한슨이 공개적으로 반발했고, 오픈AI는 무단으로 목소리를 모방했다는 의혹을 전면 부인했고, 음성 사용도 일시 중단했다. 그럼에도 각종 커뮤니티 등에서는 '스칼렛 요한슨 목소리와 너무 유사하다', '출시 이후 샘 알트만 CEO가 'her'이라는 문구를 엑스(X)에 올린 점도 수상하다'라는 글이 잇따라 게시되고 있다.
논란이 지속되자 미국의 비영리 미디어인 NPR은 애리조나주립대학교 연구진에게 과학적인 검증을 의뢰했다. GPT-4o 스카이의 목소리와 스칼렛 요한슨의 목소리가 얼마나 유사한지에 대한 분석이다. 그 결과 스칼렛 요한슨의 목소리가 다른 여배우들과 비교해 GPT-4o 스카이와 가장 유사하긴 하지만, 미묘한 차이를 보인다는 것이 드러났다.
목소리의 유사성을 분석하기 위해 애리조나주립대 연구진은 자체 개발한 AI 모델을 사용했다. 해당 모델을 통해 GPT-4o 스카이 목소리와 약 600명의 다른 여배우의 목소리를 비교했다. 연구진은 588명의 여배우들보다 스칼렛 요한슨 목소리가 더욱 스카이와 유사하다라는 결과를 도출했다.
연구진은 목소리가 나오는 통로인 '성도(Vocal tract)'를 분석했고, 요한슨과 스카이의 성대 길이가 동일하다는 사실을 밝혀냈다. 검증에 사용된 AI 모델은 아주 드물게 케리 러셀(Keri Russell), 앤 해서웨이(Anne Hathaway)의 목소리가 요한슨의 목소리보다 스카이와 더 유사하다는 분석도 내놓았다.
연구를 주도한 비사르 베리샤 교수는 NPR과의 인터뷰에서 "요한슨 목소리와 유사하지만, 동일하지는 않을 가능성이 높다"라고 말했다. 미묘한 차이점도 발견했다. 스카이는 요한슨의 목소리보다 약간 더 높고, 표현력이 더 풍부한 반면 요한슨의 목소리는 스카이보다 숨소리가 더 난다고 연구진은 분석했다.
연구진의 분석 결과를 종합해보면 스칼렛 요한슨의 목소리와 스카이의 목소리는 매우 흡사하지만, 영화 '그녀'의 목소리가 스카이와 똑같다고 주장하기에는 과학적 데이터상 미묘한 차이가 있다는 것이다. 차이가 있을 지라도, 개발 과정에서 유사한 목소리를 구현하기 위해 의도를 가지고 모델을 구했는지에 대한 논란은 지속될 전망이다. 오픈AI 측과 요한슨은 이번 연구 결과에 대해 논평을 하지 않았다.
한편 샘 알트만 오픈AI CEO는 이번 논란과 관련, 스칼렛 요한슨 목소리와 유사하게 들리도록 개발했다는 지적에 대해 부인한 바 있다. 샘 알트만 CEO는 "스카이를 포함해 5개 음성 모듈의 목소리는 5개월에 걸쳐 전문 성우와 배우를 캐스팅하고 이들의 목소리를 녹음해 400개의 목소리를 수집했다"라며 "이중 14개로 압축한 뒤 최종 5개를 선정한 것"이라고 설명했다.