메타 임원진 "솔직히 우리 목표는 오픈AI GPT…미스트랄은 상대 안 돼"

2025-01-16     조형주 기자
마크 저커버그(Mark Zuckerberg) 메타 최고경영자(CEO). (사진=AI포스트 DB)

메타가 라마 3(Llama 3) 개발 당시 오픈AI의 GPT-4 모델을 뛰어넘는 것에 집착했다는 문건이 공개됐다. 인공지능(AI) 모델 경쟁이 과열되며 메타가 불법 복제된 데이터셋이라는 것을 알면서도 AI 모델 학습에 '립젠'을 활용했다는 의혹이 제기됐다. 

법원이 공개한 메타 내부 문건에 따르면 메타의 AI 연구를 이끄는 임원과 연구자들은 라마 3를 개발하는 동안 오픈AI의 GPT-4 모델을 이기는 데 집착했던 것으로 전해졌다. 

이 문건은 전미도서상을 수상한 미국 작가 타네히시 코츠, 코미디언 사라 실버맨 등을 포함한 작가 그룹이 제기한 소송을 통해 법원에 제출된 자료다. 아마드 알-달레 메타 생성 AI 부문 부사장은 2023년 10월 휴고 투브론 메타 연구원에게 보낸 메시지에서 "솔직히 말해서 우리의 목표는 GPT-4여야 한다"라고 적었다. 

(사진=메타)

또 알-달레 부사장은 "프런티어를 구축하고 이 경쟁에서 승리하는 방법을 배워야 한다"라고 적었다. 메타는 AI 모델을 오픈소스로 공개하는 기업 중 하나다. 자사의 핵심 기술을 모든 개발자와 연구자들이 사용할 수 있도록 허용한다는 메타의 전략은 생태계를 확장하는 데 강점이 있다. 

추구하는 방향이 다름에도 메타는 폐쇄형 소스를 고수하는 오픈AI와 앤트로픽과 같은 기업의 모델을 이기는 데 집중했다는 이야기다. 메타의 가장 큰 경쟁자 중 하나인 프랑스 스타트업 미스트랄 AI도 내부 문건에 여러 차례 언급됐지만, 메타 임원들은 대체로 크게 신경쓰지 않고 있다는 반응을 보였다. 

알-달레 부사장은 "미스트랄은 우리에게 땅콩에 불과하다. 우리는 더 잘할 수 있어야 한다"라고 말했다. 이처럼 메타가 경쟁 모델의 성능을 뛰어넘는 데에만 집중하고 있었기 때문에 불법인 점을 알고도 AI 모델 학습에 허가받지 않은 데이터를 활용한 것이 아니냐는 의혹이 제기되고 있다. 

(사진=메타)

소송을 제기한 미국 작가 그룹은 메타가 AI 학습 과정에서 논문, 수백만 권의 소설, 논픽션 도서 등을 불법으로 다운로드할 수 있는 아카이브인 '립젠'을 사용했다고 주장하고 있다. 공개된 문건에는 학습 데이터와 관련된 내용도 담겼다. 

알-달레 부사장은 "우리가 필요한 데이터셋을 모두 가지고 있나?"라며 "어리석은 이유로 사용하지 못한 데이터셋이 남아 있나"라고도 언급했다. 라마 3 성능을 개선하기 위해 '립젠' 데이터셋을 사용하는 경로를 확보하는 것에 대해 논의한 내용도 문건에 포함됐다. 

이처럼 마크 저커버그 메타 CEO가 립젠 등 데이터셋이 불법이라는 점을 알면서도 이를 사용하도록 승인했다는 의혹이 제기되며, 메타는 여러 소송을 진행 중이다.