"텍스트 삽입 정확도 향상"…알리바바, 이미지 생성 AI 모델 '큐웬 이미지' 출시
알리바바의 인공지능(AI) 연구팀 큐웬(Qwen)이 텍스트 표현에 특화된 이미지 생성 인공지능 모델 '큐웬 이미지(Qwen Image)'를 공개했다.
큐웬이 이번에 공개한 모델인 '큐웬 이미지'는 '텍스트 삽입 정확도' 측면에서 눈에 띄는 성능을 갖췄다. 기존 이미지 생성 AI 모델들은 텍스트 표현에 한계를 보여왔다. 원하는 텍스트를 이미지 안에 삽입하려고 하더라도, 만족할 만한 결과물을 얻기 어려웠다.
큐웬 이미지는 중국어와 영어 문장을 정확히 렌더링하고, 여러 줄의 텍스트도 정확하게 표현할 수 있다. 단순히 겹쳐지는 방식이 아닌 시각적 구성에 완벽하게 통합된다는 게 큰 장점이다.
큐웬 이미지는 텍스트 외에도 다양한 예술적 스타일을 지원한다. 사실적인 장면부터 인상파 회화, 애니메이션 등 각종 디자인을 유연하게 그려낸다. 더불어 피사체 포즈 변경, 스타일 변환, 오브젝트 추가 등 고급 이미지 편집 기능도 지원한다.
큐웬 이미지 학습에 활용된 합성 데이터는 모두 자체적으로 생성됐다고 한다. 다른 AI 모델에서 생성된 이미지를 사용하지 않았다는 의미다. 큐웬 이미지는 '큐웬 2.5-VL', 'VAE 인코더/디코더', 멀티모달 확산 변환기(MMDiT) 등 핵심 모듈이 통합됐다.
이러한 구성 요소를 통해 이미지 이해, 맥락 파악, 정밀 편집 등 작업을 효과적으로 수행할 수 있었다고 한다. 벤치마크 테스트에서 큐웬 이미지는 챗GPT 이미지1(ChatGPT Image1), 플럭스1 콘텍스트(FLUX.1 Kontext) 등 주요 경쟁 모델보다 더 뛰어난 성능을 보였다.
특히 중국어 텍스트 렌더링 성능은 다른 AI 모델보다 훨씬 우수했다. 큐웬 이미지의 모델 데이터는 오픈소스로 공개됐다. 이에 개발자들과 연구자들이 자유롭게 활용할 수 있다.
큐웬 측은 "시각적 콘텐츠 제작에 대한 기술적 장벽을 낮추는 것이 목표"라며 "큐웬 이미지는 단순히 예쁜 그림을 만드는 도구가 아니라 언어, 레이아웃, 이미지가 융합된 지능적인 시각적 창조와 조작을 위한 포괄적인 기반 모델이 된다"라고 했다.