판티마, 기업들의 고성능 AI 모델 구현 위해 독점 데이터 제공한다

2025-07-30     유형동 수석기자
(사진=판티마)

생성형 AI, 감성 챗봇, 음성 비서, 그리고 OCR 기술까지. 같은 기술 기반 위에 만들어졌지만, 사용자 경험은 전혀 다르다. 어떤 인공지능(AI) 챗봇은 자연스럽고 정확한 응답을 제공하는 반면, 어떤 AI는 어색한 답변을 내놓는다. 왜 이런 차이가 발생할까?

전문가들은 “학습 데이터의 질이 성능을 좌우한다”라고 입을 모은다. AI는 사람이 만든 데이터를 기반으로 세상을 인식하고 학습한다. 즉, 어떤 데이터를 어떻게 학습하느냐가 곧 AI의 수준과 성능을 좌우한다는 이야기다.

이전까지는 더 많은 데이터를 더 빠르게 확보하는 것이 핵심이었다면, 이제는 실제 환경을 반영한 고정밀 데이터의 설계와 수집이 중요한 과제로 떠올랐다. 특히 감정, 문화, 언어, 상황 등 복잡한 맥락을 반영한 고차원 데이터의 수요가 빠르게 늘고 있다.

이런 흐름 속에서 AI 학습용 데이터 구축 전문 기업 판티마(Pantima Inc)는 설계부터 수집, 정제, 납품까지 모든 과정을 수행하며, 단순한 데이터 수집을 넘어 실제 사용 환경을 반영한 데이터셋을 제공하며 주목받고 있다.

현재 판티마는 글로벌 AI 기업들과 함께 다국어 감성 음성 데이터를 활용한 AI 고도화를 논의 중이다. 이 데이터는 게임 및 챗봇 환경에서 감정 인식의 정확도를 높이고, 사용자에게 더 안전한 디지털 환경을 제공하는 데 활용될 예정이다.

또한 판티마는 국내 주요 AI 기업에 다국어 필기체 이미지 데이터를 공급해, OCR(광학문자판독) 엔진의 성능 향상에 기여한 바 있다. 이러한 사례는 AI 기술이 한계를 뛰어넘기 위해 얼마나 ‘현실과 유사한 데이터’에 의존하는지를 단적으로 보여준다.

고품질 데이터를 구축하는 데 있어 가장 중요한 것은 ‘맥락 설계’다. 단순히 많은 사람을 모집해 데이터를 수집하는 것이 아니라, AI가 실제로 학습할 환경을 섬세하게 설계해야 한다. 발화자의 성향, 대화 맥락, 언어적 특징, 이미지 및 음성 구성까지 모두 포함된다.

글로벌 기업들이 학습 데이터의 출처와 저작권 문제에 민감해지면서, 이젠 신뢰 가능한 데이터 파트너를 찾는 것이 더욱 중요해졌다.

판티마는 ‘1사 1데이터 원칙’을 고수한다. 한 번 수집된 데이터는 오직 한 고객사에만 독점 제공되며, 동일 데이터의 재판매는 철저히 금지된다. 이는 크라우드 기반 데이터가 가진 저작권 및 품질 리스크를 해소하는 방식이기도 하다.

모든 프로젝트는 검증된 참여자만 투입되며, 고객사 요구에 맞춘 신규 데이터를 수집해 저작권과 함께 납품한다. 납품 이후 해당 데이터는 서버에서 완전히 삭제되며, 고객사는 자사 AI 모델만을 위한 독점적 데이터로 학습을 진행할 수 있다.

이러한 데이터 운영 방식은 학습 데이터의 질적 수준을 극대화하는 동시에, AI 성능의 정밀성과 차별성을 높이는 데 직접적인 영향을 미친다. 빠르게 변화하는 AI 시장에서 경쟁력을 더욱 강화하기 위해, 판티마는 전략적 투자 유치도 검토 중이다. 윤리적 데이터 수집과 고품질 설계를 강점으로 삼고 있는 만큼, 글로벌 시장 진출을 위한 준비에도 속도를 내고 있다.

판티마의 전신우 대표는 “AI가 현실을 더 잘 이해하려면, AI가 배우는 데이터 역시 현실을 제대로 반영해야 한다. 단순히 많은 데이터를 모으는 것이 아니라, 정확하게 설계된 고품질 데이터가 AI 시대의 경쟁력을 좌우한다”라고 강조했다.