코히어, 언어 격차 해소 위한 새로운 AI 모델 출시…"23개 언어 능력 탁월"

2024-10-28     유진 기자
(사진=코히어)

생성형 인공지능(AI) 기업 코히어(Cohere)가 23개 언어를 지원하는 다국어 모델 제품군인 아야 익스팬스(Aya Expanse)를 발표했다. 

코히어는 기업용 생성형 AI를 개발하는 기업으로 구글 브레인 출신의 아이단 고메즈와 닉 프로스트, 캐나다의 기업가 이반 장이 2019년 창업했다. 코히어는 비영리 연구소인 '코히어 포 AI'를 운영하며, 텍스트를 이해하고 분석하기 위한 다국어 모델과 같은 오픈 소스 모델을 출시하고 있다.

코히어는 24일(현지시간) 공식 블로그를 통해 오픈 소스 다국어 거대언어모델(LLM)인 '아야 익스팬스'를 출시했다고 밝혔다. 캐글, 허깅페이스를 통해 사용 가능한 아야 익스팬스는 매개변수 8B(80억개), 32B(320억개) 모델로 구성됐다. 

(사진=코히어)

아야 익스팬스 모델은 119개 국가에서 3000명 이상의 연구자가 2년 전부터 자발적으로 참여한 '아야 프로젝트'를 바탕으로 한다. 5억 1300만개의 프롬프트로 구성된 데이터셋으로 LLM ‘아야 101’을 개발했다. 아야 101은 101개 언어를 포괄하는 130억 매개변수를 보유하고 있다.

이번에 출시된 아야 익스팬스 32B 모델은 라마 3.1 70B, 젬마2 27B 등 경쟁 모델보다 성능이 뛰어나다는 게 코히어의 설명이다. 학습하는 과정에서 데이터가 제한된 언어의 경우 합성 데이터를 사용했다고 아야 익스팬스는 밝혔다. 

(사진=코히어)

모델 훈련 단계에서 출력 품질을 높이기 위해 새로운 데이터 샘플링 전략을 사용했다. 인간이 기술을 배우기 위해 교사를 찾아가는 학습 방식에서 영감을 얻어, 모델 훈련의 후반 단계에서 다양한 '교사' 모델을 전략적으로 선택해 다국어 기능에 적합한 합성 데이터를 생성했다고 한다. 

아야 익스팬스 8B는 인간 선호도로 모델을 평가하는 벤치마크에서 구글의 '젬마2 9B'에 비해 60.4%의 승률을 기록했다. 코히어는 "우리는 다국어 AI를 가속화하기 위해 더 광범위한 연구 생태계와 적극적으로 협력하고 있다"라고 밝혔다. 

한편 아야 익스팬스 8B 모델과 35B 모델은 코히어 API 플랫폼, 캐글, 허깅페이스를 통해 사용할 수 있다.