오픈AI·앤트로픽과 다른 AI 전략 펼치는 미스트랄 AI…이유는?

2025-03-11     유형동 수석기자
기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=미드저니)

프랑스 인공지능(AI) 기업 미스트랄 AI(Mistral AI)의 AI 전략에 업계 관심이 쏠린다. 더 나은 성능의 추론 AI 모델을 개발하는 것이 업계의 추세인데, 미스트랄은 다른 AI 기업과 달리 다국어 지원 기능, 문서 분석 기능에 집중하고 있기 때문이다. 

앤트로픽은 최근 추론 모델 클로드 3.7 소네트를 공개했고, 오픈AI도 일반 AI 모델과 다른 'o'시리즈의 추론 모델을 개발해 오고 있다. 중국 기업들도 추론 모델 개발에 열을 올리고 있다. 중국 AI 스타트업 딥시크는 '저비용·고성능' AI 추론 모델 '딥시크-R1'을 공개하며 돌풍을 일으켰다. 

알리바바도 올해 1월에 이어 새로운 추론 AI 모델 'QwQ-32B'을 내놓으며 딥시크와의 경쟁을 본격화하고 있다. 이 가운데 프랑스 AI 기업 미스트랄 AI는 경쟁사들과 다른 행보를 보이고 있다. 

미스트랄 OCR 기능 활용 사례. (사진=미스트랄)

미스트랄은 PDF와 이미지에서 멀티모달 요소를 고정밀로 추출해 구조화된 형태로 출력하는 개발자용 응용프로그램인터페이스(API) '미스트랄 OCR(Mistral OCR)'을 발표했다. 미스트랄의 광학문자인식 API는 모든 PDF를 텍스트 파일로 바꿔 AI 모델이 쉽게 처리할 수 있도록 도울 수 있다. 

PDF의 내용을 단순히 텍스트화하는 것이 아니다. 개발자가 선호하는 마크다운 형식으로 출력해 다른 AI 기반 워크플로와 통합할 수 있도록 설계했다. 문서 내 텍스트를 추출하는 성능에 미스트랄이 집중하는 이유는 뭘까. 전 세계 조직 데이터의 약 90%가 문서로 저장돼 있다고 알려져 있다.

AI에게 학습을 시키거나, AI 기반 프로그램에 제대로 활용하기 위해선 텍스트와 이미지 등 콘텐츠 추출 성능이 뒷받침돼야 한다. AI 학습 데이터가 고갈되어 가는 가운데 이미지나 표 등을 고정밀로 이해하는 능력을 갖춘 기업이 향후 세계 각국, 기업과 협력할 기회가 늘어날 것이라는 평가가 나온다.

아직까지 웹 상에 공개되지 않은 비정형데이터를 정확하고 빠르게 처리할 수 있다는 이점을 가지기 때문이다. PDF에서 데이터를 추출하는 서비스는 이미 존재하지만, 미스트랄의 API를 활용하면 개발자들은 OCR 기능을 손쉽게 앱이나 웹 서비스에 통합할 수 있다.

미스트랄 OCR과 다른 AI 모델 OCR 성능 비교. (사진=미스트랄)

특히 조직은 대량의 문서를 더 빠르고 더 정확하게 처리해 인간 개입의 필요성을 줄일 수 있다. 민감한 데이터를 처리하는 기업의 보안 및 규정 준수 요구 사항을 충족할 수 있다. 

이러한 기술력을 기반으로 미스트랄은 최근 아랍어와 중동 문화에 특화된 새로운 AI 모델 ''미스트랄 사바'(Mistral Saba)를 출시했다. 특정 문화권을 겨냥한 미스트랄 AI의 첫 번째 모델이다. 

미스트랄 사바는 중동 관련 데이터셋으로 학습된 모델이다. 240억개의 매개변수를 보유하고 있다. 기존 '미스트랄 스몰 3'(Mistral Small 3)과 유사한 규모다. 크기는 작지만 중동과 관련된 질문에는 더 정확하고 관련성 있는 응답을 제공한다고 한다. 

미스트랄 사바는 아랍어와 많은 인도계 언어를 지원한다. 특히 타밀어와 같은 남인도계 언어에서 강력한 성능을 보인다. 미세 조정을 통해 에너지, 금융, 의료 등 분야에서 심층적인 답변을 제공할 수 있다는 설명이다. 

미스트랄은 자사의 OCR이 구글, 마이크로소프트, 오픈AI의 API보다 우수한 성능을 보유하고 있다라고 강조했다. API로 제공하는 가격은 1000페이지당 1달러 수준이다. 아마존웹서비스(AWS), 애저(Azure), 구글 클라우드 버텍스(Google Cloud Vertex) 등 클라우드 파트너를 통해서도 기능이 제공된다.