인스턴트ID 공개: 제로샷이 만든 놀라운 딥페이크

‘인스턴트ID’ 라는 새로운 이미지 생성 ai 솔루션이 궁금하신가요? 풍문으로는 로라보다 더 딥페이크에 최적화 되어 있다고 알려져 있는데요. 제로샷이라는 훈련데이터를 최소화할 수 있는 기술이 적용되서 기초자료의 고유한 특성을 유지한 채로 자유롭게 변경하는 기술로 세상을 놀라게 하고 있습니다. 오늘은 이 인스턴트ID와 제로샷이라는 기술에 대해 알아 보겠습니다.

제로샷 기술이 적용된 인스턴트id 라는 서비스에 대해 설명하며 딥페이크와 연관성이 있다는 것을 알리는 텍스트 썸네일


인스턴트ID : 플러그 앤 플레이 이미지 생성 모듈

끊임없이 진화하는 인공지능(AI) 환경에서 LoRA와 같은 전통적인 방식을 뛰어넘는 단순성과 효율성을 약속하는 획기적인 기술이 등장했습니다.

베이징 스타트업 인스턴트X(InstantX)가 ‘제로샷(Zero-shot)’ 학습 방식의 힘을 활용한 확산 모델 기반의 혁신적인 이미지 생성 솔루션 ‘인스턴트ID (InstantID)’를 선보였는데요.

이러한 혁신적인 접근 방식을 통해 단 한 장의 사진만으로 특정 스타일의 일관된 출력을 생성할 수 있으며 원본 이미지의 아이덴티티를 충실하게 반영할 수 있습니다.

Venture Beat가 24일 보도한 바와 같이 InstantX의 ‘인스턴트ID’ 는 흔하디 흔한 이미지 생성 서비스가 아닙니다.

콘텐츠의 아이덴티티를 유지하면서 SDXL과 같은 이미지 생성 모델과 원활하게 통합되도록 설계된 ‘플러그 앤 플레이 모듈’입니다.

쉽게 말해서, 방대한 기초 학습자료 없이 내 사진 한장으로 내 고유의 특성들을 가지고 있지만 전혀 다른 사람 수만장을 몇초 만에 만들어 낼 수 있다는 것입니다.

InstantX에 따르면 얼굴 및 랜드마크 이미지를 텍스트 프롬프트와 통합해서 생성된 콘텐츠의 충실도를 더욱 향상 시켰다고 합니다.

이 독특한 접근 방식은 GPU 또는 CPU 리소스에 대한 의존도를 최소화하면서 매우 현실적이고 설득력 있는 딥페이크를 생성하는 능력에 특화되어 있습니다.

인스턴트ID 기술은 입력 데이터의 ID 특성을 보존하여 기존 방법에 대한 신속하고 효율적인 대안을 제공한다는 점에서 많은 사람들의 관심을 받고 있습니다.

베이징 스타트업 인스턴트X


몇 초 만에 제로샷 신원 보존 생성

‘인스턴트ID : 몇초 안에 제로샷 아이덴티티 보존 생성(Zero-shot Identity – Preserving Generation in Seconds)’이라는 제목의 InstantX 연구 논문에서는 인스턴트ID를 구동하는 기반 기술을 소개합니다.

제로샷 학습을 통해 AI 모델은 학습 프로세스에 포함되지 않은 새로운 콘텐츠를 인식할 수 있는데요.

이 기능은 AI의 패러다임 전환을 의미하며 모델이 단 하나의 참조 사진으로 특정 스타일의 콘텐츠를 생성할 수 있도록 해줍니다.

기업 AI 컨설턴트인 코헨(Robben Cohen)은 인스턴트ID의 독특한 접근 방식을 강조했습니다.

LoRA 또는 QRora와 같은 기술은 미세 조정 중 매개변수 감소에 중점을 두는 반면, 인스턴트ID 입력 데이터의 ID 특성을 유지하는 출력 생성을 우선시합니다.

코헨은 이를 ‘스테로이드 기술’에 비유하며 콘텐츠 정체성을 유지하면서 출력물을 생산하는 효율성과 속도를 강조했습니다.

제로샷 학습이라는 기술이 조금 어려운 것 같아서 작동 원리와 딥페이크 기술과 연계된 특징에 대해 알아보았습니다.

제로샷 학습(ZSL)은 AI 모델이 훈련 중에 본 적이 없는 클래스나 개념을 인식하고 일반화할 수 있게 해주는 매력적인 기계 학습 패러다임입니다.

이는 가능한 모든 클래스에 대해 레이블이 지정된 훈련 데이터를 얻는 것이 비실용적이거나 불가능한 시나리오에서 특히 유용한데요.

제로샷 학습의 작동 원리와 특징을 살펴보고, 딥페이크 기술과의 연관성을 토대로 이해를 높여보겠습니다.

제로샷 딥페이크 기술

제로샷 학습의 작동 원리:

  1. 의미론적 임베딩:
    • ZSL은 의미론적 설명이나 속성을 사용하여 클래스나 개념을 나타내는 의미론적 임베딩을 사용하는 경우가 많습니다.
    • 예를 들어, 이미지 인식에서 모델은 ‘고양이’가 ‘네 다리’, ‘수염’, ‘꼬리’와 같은 속성과 연관되어 있음을 학습할 수 있습니다.
  2. 이중 공간 구조:
    • 제로샷 학습은 시각적 특징 공간과 의미 특징 공간을 모두 포함하는 이중 공간에서 동작합니다.
    • 시각적 특징 공간은 데이터의 특성(예: 이미지의 픽셀)을 캡처하는 반면 의미론적 특징 공간은 클래스의 속성을 인코딩합니다.
  3. 데이터 이전:
    • 훈련 중에 모델은 시각적 특징을 알려진 클래스의 의미적 속성에 매핑하는 방법을 학습합니다.
    • 이 학습된 매핑을 통해 모델은 시각적 정보와 의미적 정보 간의 관계를 이해할 수 있습니다.
  4. 변환적 추론:
    • 추론 중에 보이지 않는 클래스에 직면했을 때(제로 샷 시나리오) ZSL은 변환 추론을 활용합니다.
    • 모델은 의미 공간에 대한 이해를 활용하여 구체적인 시각적 예가 없더라도 새로운 클래스에 대해 예측합니다.

딥페이크 기술과 연계된 제로샷 학습의 특징:

  1. 보이지 않는 조작의 인식:
    • 딥페이크 기술의 맥락에서 ZSL은 훈련 데이터에 없는 개인이 등장하는 조작된 콘텐츠를 인식하는 데 도움이 될 수 있습니다.
    • 의미론적 속성을 신원과 연결함으로써 ZSL은 완전히 새로운 얼굴을 소개하는 조작된 비디오를 식별할 수 있습니다.
  2. 콘텐츠 검증을 위한 속성:
    • 의미론적 속성에 대한 ZSL의 의존도는 검증을 위해 콘텐츠에 속성을 첨부한다는 아이디어와 일치합니다.
    • 예를 들어 ZSL을 사용하는 딥페이크 탐지 모델은 의미론적 속성의 변칙을 인식하여 잠재적인 조작을 나타낼 수 있습니다.
  3. 진화하는 기술에 대한 적응성:
    • Deepfake 기술은 끊임없이 진화하여 훈련 중에 볼 수 없었던 새로운 변형을 도입합니다.
    • 미지의 것을 일반화하는 ZSL의 능력을 통해 새로운 딥페이크 기술에 적응할 수 있어 진화하는 위협에 대한 강력한 방어 기능을 제공합니다.
  4. 광범위한 훈련 데이터에 대한 의존도 감소:
    • ZSL은 모델이 알려진 클래스의 제한된 세트에서 학습하고 보이지 않는 새로운 클래스로 일반화할 수 있도록 함으로써 광범위한 훈련 데이터 세트의 필요성을 줄입니다.
    • 이는 가능한 모든 변형이 포함된 다양한 데이터 세트를 얻는 것이 어려운 딥페이크 탐지의 맥락에서 특히 유리합니다.


우려 사항 및 GitHub 릴리스

분명 놀라운 기술임에는 틀림없지만 딥페이크와 관련해서 생각해보면 우려스러운 시선이 따르는 것은 어쩔 수 없는 것 같습니다.

큰 힘에는 큰 책임이 따라야야 하는데 기술은 책임을 지지 않으니까요.

코헨은 딥페이크를 만들 때 이 기술이 남용될 가능성이 해결해야할 도전 과제라고 말하면서 타당한 우려를 제기했습니다. 무분별하게 적용할 경우 다양한 이미지에서 특정 개인의 얼굴이 비윤리적으로 사용될 수 있다는 것인데요.

이러한 우려에도 불구하고 InstantX는 GitHub에서 인스턴트ID용 코드를 출시하여 개발자 커뮤니티에서 액세스할 수 있도록 했습니다. 이러한 움직임은 투명성과 협업을 장려하여 책임감 있게 AI 기술을 발전시키겠다는 의지를 보여줍니다.

결론적으로, InstantX의 ‘인스턴트ID’ 는 AI 이미지 생성 영역에서 판도를 바꾸는 역할을 합니다. ‘제로샷’ 학습 방법과 플러그 앤 플레이 모듈을 통해 기존 접근 방식에 대한 간소화되고 효율적인 대안을 제공하여 딥페이크 기술의 활용도를 한껏 끌어 올릴 것은 자명해 보입니다.

AI 연구소들이 이런 혁신적인 솔루션을 개발하는 것을 보고 있자면,
책임감과 윤지적 사용에 대한 제도적 장치가 필요한 시점이 아닌가 생각해 봅니다.