목록으로
기술2025년 3월 21일 오전 05:39

생각보다 속도가 빠른 이미지 AI 발전 속도

이미지 생성에 활용되는 생성형 인공지능(AI)은 기존에 몇 가지 한계를 가지고 있다. 예를 들어, ‘확산 모델(diffusion model)’로 불리는 방식은 매우 사실적인 이미지를 만들어내지만, 처리 속도가 느리고 많은 계산 자원을 요구하는 단점이 있었다. 반면, ChatGPT와 같은 대형 언어모델(LLM)에 사용되는 자기회귀(autoregressive) 모델은 처리 속도는 훨씬 빠르지만 생성되는 이미지 품질이 떨어지고 오류가 많은 문제가 있었다.

이러한 단점을 극복하기 위해 MIT와 엔비디아의 연구팀이 두 방식의 장점만을 결합한 새로운 하이브리드 이미지 생성 모델을 개발했다. 이 하이브리드 모델인 HART(Hybrid Autoregressive Transformer)는 자기회귀 모델로 먼저 전체적인 이미지 윤곽을 빠르게 잡아낸 뒤, 작은 확산 모델로 이미지를 세부적으로 보정하여 완성도를 높이는 방식으로 작동한다.

HART는 기존의 첨단 확산 모델과 비슷하거나 더 뛰어난 품질의 이미지를 약 9배 빠른 속도로 생성할 수 있다. 또한, 기존 확산 모델보다 컴퓨팅 자원을 적게 소모하여 상업용 노트북이나 스마트폰에서도 로컬로 실행이 가능하며, 사용자는 자연어 프롬프트를 입력하는 것만으로 원하는 이미지를 쉽게 생성할 수 있다.

이 기술은 연구자들이 로봇에게 복잡한 실제 작업을 학습시키거나, 게임 디자이너가 현실감 넘치는 장면을 빠르게 제작하는 등 다양한 분야에 응용될 수 있을 것으로 기대된다.

HART 기술 논문의 공동 제1 저자인 하오티안 탕(Haotian Tang)은 “풍경화를 한 번에 전체 캔버스를 채워 그리는 것보다 큰 윤곽을 먼저 그리고 세부 묘사를 추가할 때 더 멋진 그림이 되는 것처럼, HART도 같은 원리를 적용하고 있다”고 설명했다.

이 연구에는 칭화대학교 학부생 우예청(Yecheng Wu)이 공동 제1 저자로 참여했고, MIT 전기공학 및 컴퓨터과학과 부교수이자 MIT-IBM 왓슨 AI 연구소 멤버인 송 한(Song Han) 교수가 책임 저자로 참여했다. 연구 결과는 국제 학회인 학습표현 국제컨퍼런스(International Conference on Learning Representations)에서 발표될 예정이다.

확산 모델은 픽셀별로 무작위 노이즈를 제거하는 과정을 여러 번 반복하며 정밀한 이미지를 생성하는데, 이 과정이 최소 30회 이상 반복되기에 속도가 느리고 컴퓨팅 자원을 많이 소모한다. 자기회귀 모델은 이미지를 일부 픽셀씩 순차적으로 예측하여 빠르지만, 실수를 되돌아가 고칠 수 없고 압축 과정에서 정보 손실이 발생해 오류가 잦다.

연구팀이 개발한 HART는 자기회귀 모델이 이미지를 예측한 후 남아있는 부족한 세부정보를 소규모 확산 모델이 보완하는 방식을 채택했다. 이로 인해 정보 손실을 최소화하면서 세부 묘사를 크게 향상시킬 수 있었다.

HART가 활용하는 자기회귀 트랜스포머 모델(7억 개 파라미터)과 경량 확산 모델(3,700만 개 파라미터)의 결합은 20억 개 파라미터를 가진 최신 확산 모델과 동일한 품질의 이미지를 약 9배 빠르게 생성하며, 컴퓨팅 자원을 31% 적게 사용한다.

HART는 자기회귀 방식이 주된 역할을 하므로, 향후 다양한 시각-언어 결합 모델과 쉽게 통합 가능하다. 이를 통해 비디오 생성, 음성 예측 등 다양한 분야로의 확장 가능성도 기대된다.

이 연구는 MIT-IBM 왓슨 AI 연구소, MIT-Amazon Science Hub, MIT AI 하드웨어 프로그램 및 미국 국립과학재단(NSF)의 지원을 받았으며, 모델 학습을 위한 GPU 인프라는 엔비디아가 기증하였다.