Weights & Biases, ‘Horangi 한국어 LLM 리더보드’ 공개…LLM 언어 이해·생성 능력 다각도 평가

11일 무료 웨비나 개최…‘Horangi 한국어 LLM 리더보드’의 구조·사용법 설명

2024-04-02     유진 기자
Horangi 한국어 LLM 리더보드의 스크린샷. (사진=Weights & Biases)

Weights & Biases, Inc.(CEO Lukas Biewald, 이하 W&B)는 2일 대규모 언어 모델(LLM)의 한국어 성능 평가 결과의 랭킹을 공개하는 ‘Horangi (호랑이) 한국어 LLM 리더보드’의 운영 및 제공을 시작했다고 밝혔다.

이번에 선보이는 Horangi 리더보드는 LLM 모델의 언어 이해 능력과 언어 생성 능력을 다각도로 평가한다. W&B 플랫폼(WandB)의 주요 기능을 응용해 결과를 리포트에서 확인할 수 있을 뿐만 아니라 인터랙티브한 분석 기능을 제공한다.

공개 초기에는 20개 이상의 오픈 및 클로즈 모델의 평가 결과를 게시하는 것과 동시에 기업이 프라이빗 환경에서 비공개로 모델 평가를 할 수 있도록 지원한다. Horangi 리더보드는 홈페이지에서 확인할 수 있으며, W&B는 오는 11일 Horangi의 자세한 내용과 사용법을 설명하는 무료 웨비나를 개최할 예정이다.

‘Horangi 한국어 LLM 리더보드’의 모델 평가 방법

LLM 모델의 평가는 목적과 용도에 따라 주목해야 할 평가 축이 달라지기에 획일적으로 실시할 수 없다. 또한 새로운 모델이 속속 발표되고, 그 성능이 계속 업데이트되는 최근에는 더 폭넓고 난이도가 높은 최신 평가 기법을 사용할 필요가 있다.

Horangi 한국어 LLM 리더보드는 평가에 보다 다각적으로 접근하는 것을 통해 사용자가 모델을 획일적인 순위표로 비교하는 것뿐만 아니라 모델별 강점을 파악해 용도에 맞는 모델을 선택할 수 있도록 도와주는 수단이 되는 것을 목표로 하고 있다.

Horangi 한국어 LLM 리더보드에서 확인할 수 있는 모델 능력에 대한 상세 검증. (사진=Weights & Biases)

Horangi 리더보드의 지표는 크게 ‘언어 이해’와 ‘언어 생성’으로 분류돼 있다. 언어 이해 태스크는 일문일답식 평가 체계를 사용하므로 입력된 내용을 정확하게 이해하고, 요구된 형식으로 답변하는 능력을 평가한다. 언어 생성 태스크는 자유 형식으로 모델에게 답변을 출력시키고, GPT-4를 사용한 정성적 평가를 수행한다. 이 평가 체계는 Stability AI사와의 협력하에 이 회사가 개발한 MT-Bench 프레임워크를 활용하고 있다.

각 평가 카테고리는 구체적인 용도를 염두에 둔 하위 카테고리로 구성돼 있다. 예를 들어 언어 생성에서는 작문(writing), 추론(reasoning), 정보 추출(extraction) 등의 평가 축에서 모델의 강점을 검증할 수 있다.

Horangi 리더보드에서 사용하는 평가 방법은 대상 모델이 대화형 프롬프트에 대해 적절한 응답을 반환하는 것을 전제로 하고 있다. 이에 인스트럭션 튜닝을 통해 이른바 챗봇 능력을 획득하지 못한 모델에 대한 평가는 부적절하다고 할 수 있어 주의가 필요하다.

평가 방법에 관한 더 자세한 설명은 발표와 함께 공개된 Horangi LLM 리더보드 릴리스 블로그에서 확인할 수 있다. 또한 Horangi 리더보드의 상세 내용과 비공개 평가에 관한 무료 웨비나는 4월 11일 개최 예정이다.