게티이미지가 제공하는 AI 훈련용 샘플 데이터. (사진=게티이미지)
게티이미지가 제공하는 AI 훈련용 샘플 데이터. (사진=게티이미지)

세계 최대 스톡(임대 혹은 판매하는 공용 사진) 이미지 제공 기업 게티이미지(getty images)가 인공지능(AI) 모델 훈련을 위한 고품질 이미지 데이터셋을 오픈소스로 공개했다. 

6일(현지시간) 벤처비트 등 외신 보도에 따르면 게티이미지는 허깅페이스에 신뢰할 수 있고 상업적으로 안전하게 활용할 수 있는 AI 훈련용 데이터셋 샘플을 공개한다고 밝혔다. 

게티이미지의 데이터 과학 및 AI·ML 분야 책임자인 안드레아 가글리아노는 "사진 데이터가 다양하고, 고품질일 뿐만 아니라 책임감 있게 출처를 밝힐 수 있는 데이터로 AI를 학습시킬 수 있다"라고 했다. 

게티이미지는 AI 개발자들을 지원함으로써 개발자들이 자사의 플랫폼에서 정식 라이선스를 가진 콘텐츠들을 활용하는 생태계가 조성되기를 기대하고 있다. AI 모델을 훈련할 때 개발자들은 이미지, 영상 등 출처가 불분명하고 품질이 낮은 데이터셋을 활용하곤 했다. 

(사진=게티이미지)
(사진=게티이미지)

웹상의 이미지를 무단으로 AI 학습에 활용했다간 향후 저작권 분쟁에 휘말리기도 한다. 최근 들어 이미지 생성 AI 기업들이 문제를 겪고 있기도 하다. 허깅페이스에 오픈소스로 데이터셋을 제공해 이러한 문제를 해결하는 데 도움을 주고, 향후 시장 내 지배력을 높이겠다는 의도로 풀이된다. 

게티이미지는 비즈니스, 배경, 자연, 아이콘, 의료 등 최대 15개 카테고리의 이미지 3750개와 즉시 사용 가능한 저장소를 개발자들에게 제공한다. 신뢰할 수 있는 데이터가 더 필요할 경우 회사 측과 논의해야 한다고 게티이미지는 전했다. 

최근 들어 이미지 스톡 라이브러리 기업들이 AI 훈련용 데이터셋 제공을 통해 쏠쏠한 수익을 올리고 있다. 셔터스톡은 이미지, 비디오, 음악 관련 데이터를 오픈AI에 제공하고 있다. 오픈AI는 정제된 대규모 데이터를 AI 학습에 활용하고 있다. 

게티이미지와 엔비디아가 함께 개발한 AI 이미지 생성 도구로 만든 사진. (사진=게티이미지)
게티이미지와 엔비디아가 함께 개발한 AI 이미지 생성 도구로 만든 사진. (사진=게티이미지)

이처럼 AI 기업과의 라이선스 사업을 통해 셔터스톡의 매출이 꾸준히 늘고 있는 것으로 전해졌다. 지난해의 경우 AI 훈련용 라이선스 사업으로 1억 달러(약 1300억원)가 넘는 매출을 올렸다고 한다. 구글, 애플, 아마존 등이 주요 고객이다. 

생성형 AI 도구를 개발하는 기업이 우후죽순 생겨나며 신뢰할 수 있는 데이터에 대한 수요가 늘고 있어, 고품질 데이터를 제공하는 스톡 이미지 기업들의 존재감도 한층 커질 전망이다.  

AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com