애플, 소형언어모델 ‘DCLM’ 출시…"고품질 데이터로 최고 성능 구현"
오픈AI가 최근 출시한 소형언어모델(sLM) 'GPT-4o 미니'가 호평을 얻고 있는 가운데 애플도 새로운 오픈소스 소형언어모델을 출시했다. 경쟁사들의 소형언어모델보다 성능이 뛰어나다는 게 애플 측의 주장이다.
19일(현지시간) 벤처비트 등 외신보도에 따르면 애플은 70억개의 매개변수(7B)를 가진 모델과 14억개의 매개변수(1.4B)를 가진 오픈소스 sLM ‘DCLM(DataComp for Language Models)’을 공개했다.
이번 모델을 놓고 애플 연구진은 '최고 성능'의 오픈소스 모델이라고 설명했다. DCLM은 고품질 데이터를 자동으로 필터링할 수 있는 '데이터 큐레이션'을 통해 구축된 데이터셋 ‘DCLM-베이스라인(Baseline)’을 학습했다.
데이터를 필터링해 저품질 샘플을 제거하고 레이블을 향상시키는 것이 성능 구현에 중요하다는 게 연구진의 설명이다. 2조5000억개 토큰으로 훈련한 DLCM-7B는 2000개 컨텍스트 창과 함께 제공되며 추론 능력 측정 벤치마크인 MMLU에서 63.7%의 5-샷 정확도를 기록했다.
이는 오픈소스 데이터 언어 모델 범주에서 이전까지 최첨단 모델이었던 '맵-네오(MAP-Neo)'와 비교했을 때 6.6%p 향상된 것이며, 학습에 40% 적은 계산 자원을 활용했다고 연구진은 설명했다. DCLM은 주요 개방형 sLM인 '미스트랄-7B'의 62.7%, 메타 '라마3- 8B'의 66.2%, 구글 '젬마(Gemma)'의 64.3%, 마이크로소프트(MS) '파이-3'의 69.9% 등과 유사한 성능을 보였다.
연구진은 "우리의 결과는 언어모델 훈련을 위한 데이터셋 설계의 중요성을 강조하고, 데이터 큐레이션에 대한 추가 연구의 시작점을 제공한다"라고 언급했다. 현재 DLCM-7B는 애플의 샘플 코드 라이선스에 따라 제공되는 반면 DLCM-1.4B는 아파치 2.0 라이선스에 따라 상업적 용도로 사용할 수 있다.
한편 거대언어모델에 대한 관심이 최근 오픈소스 소형언어모델로 옮겨가는 모양새다. 학습 비용 부담을 덜 수 있으면서도 성능 차이는 크지 않기 때문이다. 고품질 데이터로만 학습한 sLM은 학습량이 적어도 우수한 성능을 발휘할 수 있다.