"경쟁 모델보다 텍스트 삽입 기능 우수해"
구글, 버클리 캘리포니아대(UC버클리), 카네기멜론대학교, 토론토대학교 등 세계적 명문 기업, 기관 출신 엔지니어들이 의기투합해 새로운 인공지능(AI) 이미지 생성기 ‘이디오그램 1.0(Ideogram 1.0)’를 출시해 화제다. 기업은 이 플랫폼이 텍스트대로 그림을 그리는 이미지 생성기 가운데 가장 높은 성능을 갖췄다고 발표했다.
지난달 28일(현지시간) AI 스타트업 이디오그램은 공식 블로그를 통해 "현재까지 가장 발전된 텍스트 투 이미지(Text To Image) 모델인 이디오그램 1.0을 출시하게 돼 기쁘다"라고 밝혔다. 이디오그램 1.0은 경쟁 모델인 달리, 미드저니와 비교해 더욱 사실적이고, 개방적이며 창의적인 이미지를 만들 수 있다고 기업 측은 설명했다.
특히 매직 프롬프트(Magic Prompt)라는 기능을 통해 이미지 내부에 단어를 삽입하는 성능이 매우 우수하다고 홍보했다. 자체 평가에 따르면 텍스트 삽입 측면에서 기존 모델의 오류율을 2배까지 줄였다고 했다. 다양한 종횡비와 스타일로도 이미지를 생성할 수 있고, 리얼리즘을 넘어 예술적인 결과물을 생성할 수 있다고 기업 측은 주장했다.
매우 복잡한 프롬프트를 해석하고, 이를 반영해 사진으로 구현하는 데 특화돼 있다. 예를 들어 "두 남자가 공부방에 있다. 왼쪽에 있는 남자는 긴 코트와 무늬가 있는 셔츠를 입고 지팡이를 들고 서 있다. 그는 수염을 기른 깔끔한 외모를 갖고 있다. 오른쪽 남자는 정장을 입고 지팡이를 들고 의자에 앉아 있다. 그 뒤에는 벽에 걸린 한 남자의 초상화가 액자에 걸려 있다. 객실은 화려한 커튼과 카펫 바닥으로 빈티지한 느낌을 준다."라는 프롬프트를 줬더니, 누락된 부분 없이 정확하게 만들어 냈다.
더불어 텍스트 프롬프트를 자동으로 확장해주는 '매직 프롬프트'라는 기능이 눈길을 끈다. "고양이에 관한 재미있는 밈 만든다"를 입력하면 이디오그램이 "놀란 표정의 페르시아 고양이가 등장하는 밈이다. 고양이의 눈은 크게 뜨고 있어 충격을 받거나 즐거워하는 것처럼 보인다. 배경은 다양한 포즈를 취한 다른 고양이들의 컬러풀한 콜라주이며, 밈에는 '고양이가 인터넷을 점령했다는 사실을 깨달을 때'라는 문구가 적혀 있다"로 확장되는 방식이다.
기업 측은 인간 평가자들을 대상으로 진행한 선호도 조사 결과 이미지 일관성, 전반적인 선호도, 텍스트 렌더링 등 품질 측면에서 미드저니 V6, 달리 3 보다 이디오그램 1.0의 선호도가 높다고 밝혔다. 이에 해외 매체 디크립트(Decrypt)는 최근 이디오그램과 미드저니, 달리3의 성능을 비교 분석한 결과를 발표했다.
미드저니는 일관성 있는 텍스트를 전혀 생성할 수 없었고, 달리3는 문구 삽입에 약점을 보였고, 이디오그램은 일부 오타가 있었지만 요청한 텍스트를 모두 제대로 표현할 수 있었다고 디크립트는 보도했다. 유명인 이름을 프롬프트로 제시했더니 미드저니는 이미지 생성을 거부했고, 달리3는 만화적인 스타일로 이미지를 생성했다고 한다. 디크립토는 이디오그램만이 보다 정확하게 명령을 수행했다고 했다. 프롬프트 소화력이 다른 플랫폼보다 더 개방적이라는 평가다.
이디오그램은 이미지 생성 모델을 출시하며 8,000만 달러(1,068억원) 규모의 시리즈 A 투자도 유치했다고 덧붙였다. 투자에는 앤드리슨 호로비츠, 인덱스 벤처스, 레드포인트 벤처스, 피어 VC, SV 엔젤 등이 참여했다. 이디오그램은 구글, 버클리 캘리포니아대(UC버클리), 카네기멜론대학교, 토론토대학교 등 세계적 명문 기업, 기관 출신 엔지니어들이 지난해 8월 설립했다.
한편 이디오그램 1.0은 현재 이디오그램의 웹 사이트 및 디스코드 서버에서 사용할 수 있다. 미드저니와 달리 무료 이용자도 이미지를 생성할 수 있다. 월 7달러를 지불하면 하루 400개, 월 16달러 요금제 이용자는 무제한으로 이미지를 생성할 수 있다.
AI포스트(AIPOST) 조형주 기자 aipostkorea@naver.com

