실시간 이미지 생성 프레임워크는 MIT에서 개발한 최신 이미지 생성 기술로 1초안에 이미지를 생성하는 놀라운 기술입니다. 최근 스테이블 디퓨전 터보에도 탑재되어 유명세를 타기도 했는데요. 오늘은 최신 기술인 만큼 기술변화에 민감하신 분야에 계신 분이라면 놓치지 말아야 할 이 기술의 핵심인 DMD 프레임워크와 기술전반에 이해하기 쉽게 소개해 드리도록 하겠습니다.
목차
MIT ‘실시간 이미지 생성 프레임워크’
이미지 생성 AI 분야에서 새로운 지평을 열고 있는 MIT의 ‘실시간 이미지 생성 프레임워크’는 그 놀라운 속도로 주목받고 있습니다.
이 혁신적인 프레임워크는 기존 확산 모델의 복잡한 다단계 프로세스를 단일 단계로 대폭 단순화했는데요.
이 모델이 유명해지게 된 계기가 바로 최근 공개된 스테이블 디퓨젼 XL 터보의 실시간 이미지 생성 방식이 MIT의 실시간 이미지 생성 기술의 핵심인 “DMD” 접근 방식과 유사한 방식으로 작동하기 때문인데요.
스테이블 디퓨젼 XL 터보는 공개되자 마자 우수한 성능에 많은 관계자들에게 찬사를 받고 있는 제품으로 이와 유사한 수준의 기술을 만든 MIT의 기술과 이 기술이 어디에 적용될지에 대해 세상의 관심이 주목되고 있습니다.
확산 모델의 한계를 뛰어넘는 DMD 프레임워크
MIT 연구진이 공개한 ‘분포 매칭 증류(Distribution Matching Distillation, DMD)’ 프레임워크는 이미지 생성 AI의 paradime shift를 이끌고 있습니다.
기존 확산 모델은 이미지 생성 과정에서 30~50단계의 반복 작업이 필요했습니다.
모호한 노이즈 상태에서 출발해 연속 샘플링을 거치며 점차 이미지를 다듬어 나가는 방식이었죠.
하지만 DMD는 이런 다단계 프로세스를 단일 단계로 압축했습니다.
확산 모델과 생성적 적대 네트워크(GAN)의 원리를 결합한 것이 핵심입니다. 확산 모델의 우수한 샘플 품질과 GAN의 고유 속도를 하나로 아우른 것이죠.
이를 통해 DMD 프레임워크는 확산 모델 기반 이미지 생성 속도를 무려 30배나 높였습니다.
예를 들어 스테이블 디퓨전 1.5가 최신 하드웨어에서 1.5초가 걸리는 반면, DMD 기반 모델은 단 500분의 1초면 충분합니다.
속도와 품질을 모두 잡은 DMD
생성 AI 모델의 속도 향상을 위해서는 종종 이미지 품질이 저하되는 트레이드오프가 발생했습니다.
하지만 DMD 프레임워크는 이런 문제를 해결했습니다. 품질 저하 없이 속도만 극대화한 것이죠.
이는 DMD의 독특한 원리에서 비롯됩니다.
DMD는 확산 모델의 사전 학습 지식을 활용하는 한편, GAN 방식의 적대적 학습을 통해 출력 이미지의 사실성을 계속 향상시킵니다. 이런 반복 프로세스를 거치면서 점차 더 나은 품질의 이미지를 생성하게 되는 것입니다.
연구진은 “DMD는 계산 시간을 크게 줄이면서도 생성 이미지 품질을 유지한다”며 “속도와 품질이 모두 뛰어난 새로운 생성 모델링 방법”이라고 자신했습니다.
실시간 이미지 생성의 무한한 활용 가능성
DMD 프레임워크가 가져올 변화의 파장은 실로 크다고 할 수 있습니다.
1초 만에 이미지를 생성할 수 있다는 건 창작 및 디자인 작업의 패러다임 자체를 뒤바꿀 수 있기 때문입니다.
예를 들어 마케팅이나 광고 분야에서는 프로모션 비주얼을 실시간으로 제작할 수 있게 됩니다.
기존에는 많은 시간과 노력이 필요했지만, 이제 아이디어가 떠오르는 대로 즉시 시각화할 수 있게 된 것이죠.
게임, 영화, 애니메이션 제작에서도 DMD 프레임워크를 활용한다면 대단한 효율성 향상을 기대할 수 있습니다.
배경, 캐릭터, 오브젝트 등 다양한 시각 콘텐츠를 실시간으로 생성할 수 있기 때문입니다. 창작 단계부터 렌더링까지, 전체 파이프라인의 혁신을 가져올 것으로 보입니다.
건축 및 실내 디자인 분야에서도 비슷한 변화가 일어날 것입니다. 클라이언트와 아이디어를 실시간으로 공유하며 다양한 콘셉트를 시각적으로 구현해볼 수 있게 되었습니다.
더 유연하고 효율적인 의사소통이 가능해지는 것이죠.
이처럼 1초 실시간 이미지 생성은 다양한 산업 전반에 걸쳐 새로운 창작 패러다임을 열어줄 것으로 기대됩니다.
시간과 노력의 낭비를 없애고 아이디어의 자유로운 구현을 돕는 강력한 도구가 될 것입니다. DMD 프레임워크의 파급력은 당분간 계속 확장될 전망입니다.
스테이블 디퓨전 터보
SDXL Turbo(Stable Diffusion Turbo)의 공개는 특히 텍스트 설명에서 이미지를 생성하는 맥락에서 이미지 합성 영역에서 상당한 발전을 의미합니다.
ADD(Adversarial Diffusion Distillation) 기술을 기반으로 하는 이 최첨단 모델은 ‘실시간 이미지 생성’ 에 대한 획기적인 접근 방식을 도입하여 프로세스에 필요한 단계 수를 대폭 줄였는데요.
고품질 이미지를 생성하기 위해 종종 50개에 달하는 여러 단계를 반복해야 했던 이전 모델과 달리 SDXL Turbo는 단 한 단계로 동일한 수준의 이미지 충실도를 달성했습니다.
이 놀라운 성과는 점수 추출과 적대적 훈련의 요소를 결합한 새로운 훈련 방법론인 ADD의 독창적인 적용을 통해 가능해졌다고 알려져 있습니다.
ADD
ADD의 핵심에는 예외적으로 높은 이미지 품질을 유지하면서 일반적으로 단 1~4단계에 걸쳐 매우 압축된 시간 내에 대규모 이미지 확산 모델을 효율적으로 샘플링하는 개념이 있는데요.
적대적 손실 메커니즘과 함께 사전 훈련된 이미지 모델을 ‘교사 신호’로 활용하면 단 한두 단계로 생성된 이미지라도 현실에 대한 놀라운 충실도를 나타낼 수 있습니다.
이러한 독특한 기술 융합은 이미지 합성 프로세스를 가속화할 뿐만 아니라 생성적 적대 네트워크(GAN) 및 잠재 일관성 모델과 같은 기존 방법을 능가하는 우수한 품질의 결과를 보장합니다.
SDXL Turbo의 중요성은 전례 없는 속도로 고품질 이미지를 생성하는 능력 이상으로 확장되며, 비상업적 연구 라이센스에 따른 모델 출시는 연구 커뮤니티 내에서 협업과 혁신을 촉진하겠다고 발표한바 있어요.
또한 모델의 코드와 가중치에 대한 액세스를 제공함으로써 개발자와 연구원 모두 해당 기능을 탐색하고 확장할 수 있어 이미지 합성 분야에서 더욱 발전할 수 있습니다.