학습 데이터 고갈 코앞…AI가 만든 데이터를 AI가 학습한다면?

2024-07-30     유형동 수석기자
AI가 만든 데이터로 학습한 모델들의 산출물에는 오류가 많은 것으로 나타났다. (사진=이디오그램)

대형언어모델(LLM)이 생성형 인공지능(AI) 시대를 앞당기면서 학습 데이터에 대한 중요성도 더욱 커지고 있다. 몇 년 뒤 AI가 학습할 데이터 재고가 모두 소진될 것이라는 관측이 나오면서 AI 개발이 둔화될 가능성이 높다는 우려도 나온다. AI가 만들어 낸 합성데이터(Synthetic Data)가 대안이 될 수 있을까. 

미국 비영리 AI리서치기관인 에포크AI(Epoch AI)가 내놓은 연구 결과에 따르면 사람이 만든 고품질 언어 데이터의 재고는 2026년 이전에 고갈될 것으로 예측된다. 각 기업들의 모델 크기와 학습량이 많아지며 데이터 소진 속도는 더욱 빨라질 전망이다. 

이에 AI가 만든 합성데이터로 눈길을 돌리는 기업들도 있다. 일부 기업들은 합성데이터를 적극 활용해 편향성 문제를 해결하고자 노력 중이다. AI가 새로 학습할 데이터가 고갈됐을 때 AI가 만든 가상의 데이터인 합성데이터가 새로운 대안이 될 수 있을지에 대한 의문이 늘고 있다. 

최근 이와 관련된 연구 결과가 발표돼 화제다. 영국 옥스포드대 컴퓨터과학과 연구팀이 국제학술지 네이처에 게재한 논문에 따르면 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 제대로 된 답변을 하지 못하게 되고, 결국 '모델 붕괴'에 이르는 것으로 나타났다.  

생성형 AI 등장 이전의 모델들은 고품질 데이터로 학습했다면, 요즘 개발되는 모델들은 Ai가 만든 데이터를 걸러서 학습해야 하는 실정이다. (사진=이디오그램)

예컨대 연구진은 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력했다. 첫 번째 모델은 대부분 목표에 부합하는 답변을 내놓았다. 자기 학습, 생성 등 과정을 반복하자 뜬금없는 이야기를 내놓기 시작했고, 9세대 AI는 토끼와 관련된 답변을 했다. 이미지 부문에서도 비슷한 오류가 발생됐다.  

AI 모델에 개 사진을 주고, 학습과 생성을 입력했더니 다양한 품종의 개 이미지는 서서히 사라졌다. 골든 리트리버 등 일반적인 이미지만 남았으며 마지막에는 신체 부위가 뒤섞이는 사진이 출력되기도 했다. 인간이 만든 고품질 데이터가 고갈된 이후 AI가 생성한 데이터를 학습할 경우 엄청난 오류가 발생할 수 있다는 것을 시사한다. 

웹 상의 데이터를 무단으로 학습시키는 것도 향후 문제가 생길 것으로 보인다. AI가 생성한 콘텐츠가 홍수처럼 쏟아지다보니 AI 모델을 학습시킬 때 저품질 데이터가 포함될 가능성이 높아졌다. 이에 오픈AI 등 대형 기업들은 유명 언론사 등과 데이터 활용을 골자로 한 파트너십을 체결하고 있다. 

에밀리 벵거(Emily Wenger) 미국 듀크대 교수는 “AI가 생성한 콘텐츠가 온라인에 급증하고 있다. 이는 AI 모델 자체에 치명적일 수 있다"라며 "AI 등장 이전의 데이터를 확보하고는 새로운 LLM을 훈련하는 것이 점점 더 어려워질 수 있다"라고 말했다.