AI 모델 개발 더 저렴해진다…"o1-프리뷰 수준 추론 모델 개발, 70만원도 안 들었다"
스스로 생각하고 결론을 검증하는 추론특화 인공지능(AI) 모델 개발이 한창이다. 기업들은 수익성을 개선하기 위해 모델 구축 비용을 줄이면서도 높은 성능을 발휘하는 방법을 고민 중이다. 이 가운데 미국의 한 연구진이 추론 모델을 더 쉽고 저렴하게 개발하는 방법을 제시했다.
미국 캘리포니아대 버클리(UC버클리) 소속 '스카이 컴퓨팅 랩(Sky Computing Lab)' 연구진은 최근 오픈AI의 'o1 프리뷰' 모델과 동등한 성능을 보이는 추론 모델 'Sky-T1-32B-Preview'와 훈련하는 데 사용한 데이터셋과 훈련 코드를 오픈소스로 공개했다.
여러 벤치마크에서 오픈AI의 o1 모델과 유사한 성능을 보였다고 한다. 놀라운 점은 'Sky-T1-32B-Preview'를 훈련시키는 데 450달러(약 66만원)도 채 들지 않았다는 것이다. 높은 수준의 추론 기능을 구현할 수 있다는 게 눈길을 끈다.
UC 버클리 연구진은 AI 모델의 추론 기능을 발전시키기 위해 다양한 기술을 탐구해 왔다. 연구진은 알리바바의 'QwQ-32B-Preview'를 사용해 'Sky-T1'의 초기 훈련 데이터를 생성했다. 이후 연구진은 데이터들을 큐레이팅했으며, GPT-4o 미니를 활용해 데이터 리팩토링 작업을 수행했다.
이후 8개의 엔비디아 H100 GPU(그래픽처리장치)를 사용해 320억개의 매개변수를 가진 'Sky-T1'을 훈련시켰다. 훈련에는 19시간이 소요됐다. 그 결과 해당 모델은 수학, 코딩 등 성능을 평가하는 벤치마크에서 'o1-프리뷰'를 능가했다고 한다.
연구진은 "앞으로 우리는 강력한 추론 성능을 유지하는 보다 효율적인 모델을 개발하고, 모델의 효율성과 정확성을 더욱 향상시키는 고급 기술을 탐구하는 데 집중할 것"이라고 밝혔다.