드디어 '애플표 멀티모달 AI' 공개됐다…애플, 자체 멀티모달 AI '4M' 오픈소스로 공개

2024-07-03 조형주 기자

(사진=미드저니)

애플이 스위스 연구진과 협력해 개발한 멀티모달 인공지능(AI) 모델 '4M'을 오픈소스로 공개했다. 이 모델은 경쟁사들의 AI 모델과 같이 텍스트로 이미지를 만들고 복잡한 객체를 감지하는 등 다재다능한 기능을 갖췄다는 설명이다.

1일(현지시간) 벤처비트 등 외신 보도에 따르면 애플은 스위스 연방 공과대학 로잔(EPFL)과 협력해 허깅페이스 스페이스 플랫폼에 멀티모달 AI '4M'의 공개 데모 버전을 공개했다. 4M에 대한 개념을 소개하는 논문을 공개한 지 7개월 만에 실제 모델이 나온 것이다.

4M은 대규모 멀티모달 마스크 모델링(Massively Multimodal Masked Modeling)의 약자로 다양한 모달리티에서 콘텐츠를 처리하고 생성할 수 있는 다재다능한 AI 모델이다. 사용자는 시스템과 상호작용해 텍스트 프롬프트로 이미지를 만들 수 있고, 복잡한 객체를 감지하고, 자연어로 3D 화면을 조작할 수 있다고 한다.

애플이 공개한 멀티모달 AI '4M'을 활용해 마스킹한 건물 사진. (이미지=허깅페이스)

(사진=애플)

애플이 오픈소스 플랫폼에 기술을 공개적으로 알린 건 매우 이례적인 일이다. AI 역량을 대외적으로 알리면서 기업들이나 개발자들의 관심을 끌기 위한 의도로 풀이된다. 이번에 허깅페이스 스페이스 플랫폼에 공개된 데모 버전은 4M에 활용된 '멀티모달 마스킹 기법'이 포함됐다.

통합 아키텍처 '4M'의 멀티모달 마스킹은 RGB 이미지에서 중요한 정보만 추출하고, 그 외의 정보를 의도적으로 숨기는 기법을 의미한다. 4M 데모버전에서 이미지를 업로드하면 RPG, 캡션, 심도 등 모달리티의 특성에 따라 마스킹 된 14종의 데이터를 제공한다.

(사진=애플)

필요한 내용만을 선택해 사용할 수 있다는 것이 장점이다. 멀티모달 마스킹 기법을 통해 서로 다른 소스들의 관계를 학습할 수 있게 됐다. 또한 다양한 유형의 데이터를 분석하는 과정에서 새로운 패턴을 발견할 수도 있다. 외신들은 4M이 애플의 장기적인 'AI 야망'을 암시한다는 평가를 내놓았다.

자연어 입력을 기반으로 3D 장면을 조작하는 모델의 기능은 비전 프로와 애플의 증강현실 기술 발전을 앞당길 것으로 예상된다. 4M 모델이 시리와 통합되면 텍스트, 이미지, 공간 정보를 포함하는 복잡한 다중 파트 쿼리를 이해하고 응답할 수 있을 것으로 보인다.