"무분별한 웹 스크래핑 그만"…위키피디아, AI 학습용 데이터셋 무료로 공개

2025-04-20     진광성 기자
기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=AI포스트 DB)

인공지능(AI) 학습 데이터를 확보하기 위해 많은 AI 기업들이 웹사이트에서 데이터를 무단으로 스크래핑한다. 이에 일부 웹사이트 소유자들은 AI 봇의 접근을 차단하기도 한다. 

여러 AI봇이 동시다발적으로 웹사이트를 스크래핑하는 과정에서 서비스에 지장을 줄 정도의 트래픽을 발생시키기 때문이다. 이에 위키미디어 재단이 서비스하는 백과사전 콘텐츠인 위키피디아가 AI 학습에 최적화된 데이터셋을 공개했다. 

크롤링 봇들의 무분별한 접근을 줄이기 위함이다. 위키미디어 재단은 구글의 데이터 사이언스 커뮤니티 플랫폼 캐글(Kaggle)과 협력해 영어와 프랑스어 콘텐츠로 구성된 베타 데이터셋을 제공한다고 발표했다. 

위키피디아 콘텐츠는 생성형 AI의 학습 차원에서 매우 필수적인 존재로 여겨진다. 온라인 백과사전이 정확해야 올바른 답변을 내놓을 수 있기 때문이다. 위키피디아는 여러 장치를 내부적으로 운영하는 등 정보의 객관성을 유지하기 위해 노력한다고 알려져 있다. 

(사진=캐글)

캐글이 호스팅하는 데이터셋이 '머신러닝 워크플로우'를 염두에 두고 설계됐다고 위키미디어 측은 밝혔다. 이를 통해 AI 개발자들은 모델링, 미세 조정, 벤치마킹, 정렬 및 분석 등에 데이터셋을 활용할 수 있을 것으로 예상된다. 

데이터셋은 오픈 소스로 제공된다. 여기에는 연구 요약, 간략한 설명, 이미지 링크, 인포박스 데이터, 논문 등이 포함돼 있다. 위키미디어 측은 원문 텍스트를 스크래핑하는 것보다 더 매력적인 대인이 될 것이라고 설명했다. 

이로써 소규모 기업, 개인 개발자들이 위키피디아 콘텐츠에 더 쉽게 접근할 수 있게 됐다. 브렌다 플린 캐글 파트너십 책임자는 "머신러닝 커뮤니티가 도구와 테스트를 위해 찾아오는 곳인 캐글은 위키미디어 재단의 데이터를 호스팅하게 돼 매우 기쁘다"라고 밝혔다. 

그러면서 그는 "캐글은 이미 사람들이 데이터셋을 찾는 최고의 플랫폼이며, 위키미디어 재단에서 호스팅하는 데이터셋보다 더 큰 영향력을 가진 오픈 데이터셋은 거의 없다"라며 "데이터의 접근성, 가용성, 그리고 유용성을 유지하는 데 기여할 것"이라고 덧붙였다. 

한편 위키피디아는 AI에게 정확한 정보를 제공하기 위해 꾸준히 애쓰고 있다. 창업자 지미 웨일즈는 "분명히 우리는 전 세계가 위키피디아에 의존하고, 인공지능 모델이 위키피디아에 의존하기 때문에 그만큼 무거운 책임감을 느끼고 있다"라며 "우리는 로봇이 편향되도록 가르치는 것을 원하지 않는다"라고 밝혔다.