기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=AI포스트 DB)
기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=AI포스트 DB)

학습 데이터 부족으로 인공지능(AI) 기업들이 AI 모델 개발에 어려움을 겪고 있다는 소식이 전해지고 있다. 학습 데이터 고갈 시기를 놓고 의견이 분분한 상황이다. 이와 관련 일론 머스크 테슬라 최고경영자(CEO)는 지난해 이미 데이터가 고갈됐다고 밝혔다. 

머스크 CEO는 8일(현지시간) 엑스(X)에서 진행된 마크 펜 스태그웰 회장과의 인터뷰를 통해 "우리는 이제 기본적으로 AI 훈련에서 누적된 인간 지식의 총합을 고갈시켰다"라며 "이 문제는 지난해에 일어났다"라고 밝혔다. 

학습 데이터 고갈 문제를 해결하는 대안으로 머스크 CEO는 '합성 데이터(Synthetic Data)'를 언급했다. 머스크 CEO "(데이터 문제)를 보완하는 유일한 방법은 AI가 만드는 합성 데이터"라면서 "합성 데이터를 사용하면 AI가 스스로를 평가하는 자체 학습 과정을 거칠 것"이라고 강조했다.

(사진=일론 머스크 X)
(사진=일론 머스크 X)

실제 각 기업들의 모델 크기와 학습량이 많아지며 데이터 소진 속도는 더욱 빨라지는 가운데 AI가 만든 합성 데이터로 눈길을 돌리는 기업들이 늘고 있다. 마이크로소프트(MS), 오픈AI, 앤트로픽, 메타 등 기업들도 이미 합성 데이터를 AI 학습에 활용 중이다. 

미국 정보 기술 연구 및 자문 회사 가트너(Gartner)는 지난해 AI 및 분석 프로젝트에 사용된 데이터의 60%가 합성적으로 생성됐다고 추정했다. 특히 비용을 절감할 수 있어 '합성 데이터'로 모델을 학습시키는 기업들은 지속 증가할 전망이다. 

일각에서는 합성 데이터로 인해 모델 기능이 심각하게 손상될 수 있다는 우려도 나온다. 인간이 만든 고품질 데이터가 고갈된 이후 AI가 생성한 데이터를 학습할 경우 엄청난 오류가 발생할 수 있다는 것이다. 

에밀리 벵거(Emily Wenger) 미국 듀크대 교수는 “AI가 생성한 콘텐츠가 온라인에 급증하고 있다. 이는 AI 모델 자체에 치명적일 수 있다"라며 "AI 등장 이전의 데이터를 확보하고는 새로운 LLM을 훈련하는 것이 점점 더 어려워질 수 있다"라고 말했다. 

AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com