제미니(Gemini) 특징

‘제미니(Gemini)’, 어떤 LLM인지 궁금하신가요?

이 모델은 GPT-4에 대안으로 개발된 구글의 첫 멀티모달 LLM인데요.

이 포스팅 읽으면 GPT-4에 대한 대안으로 개발된 이 모델의 특징과 탄생비화, 멀티모달의 개념까지 모두 알 수 있고, 무엇보다 GPT와 비교해서 무엇이 다른점인지를 알 수 있으실 겁니다.

아직 정식 발표가 되지 않아 많은 내용을 담기는 어렵지만 현재까지 공개된 내용을 정리하였으니 이점 참고하여 봐주시면 감사하겠습니다.

텍스트와 이미지 및 비디오의 입출력까지 가능한 멀티모달의 특징을 도식화한 그림

1 구글 첫 멀티모달 LLM 제미니(Gemini)

구글 첫 멀티모달 LLM 제미니(Gemini)

구글은 지난 5월 연례 개발자회의 ‘I/O 2023’에서 제미니를 처음 언급했습니다.

이후 찌라시같은 단편적인 내용이 흘러나왔지만 사실이 아닌 것으로 밝혀졌었는데요.

드디어 구글에서 멀티모달 LLM 제미니(Gemini)의 출시를 위한 움직임이 포착되었습니다.

제미니가 공식발표된 것은 아니고 기업 테스트를 위해 일부 기업들에게 우선 배포한 것으로 알려졌는데요.

제미니(Gemini)는 오픈AI의 GPT-4 모델에 대응하기 위해 만들어졌는데, 그래서 그런지 목표 성능도 GPT-4와 유사한 점이 많습니다.

일반적으로 LLM모델은 매개변수가 많을 수록 성능이 우수하다고 판단할 수 있는데요.

우선 GPT-4는 매개변수가 5000억~1조개인 것으로 알려져 있습니다.

어마어마한 갯수의 매개변수인 만큼 이를 유지하기 위한 비용도 어마어마하게 들어가서 아직 적자상태라고 알려져 있을 정도입니다.

제미니(Gemini)의 매개변수도 GPT-4와 비슷한 수와 유사하다고 하는데요.

이 밖에 텍스트 요약 및 생성, 코딩, 이미지까지 모두 가능한 모델로 GPT모델과 비슷한 느낌입니다.

하지만 다른 점이 한가지 있는데요. 바로 멀티모달 특화 LLM이라는 점입니다.

멀티모달이라는 용어가 일반인들에게는 익숙하지 않은 용어라서 이해를 위해 잠깐 설명하고 지나가겠습니다.

멀티모달

우리가 사람과 소통할 때 주로 음성과 제스처를 사용하는데, 컴퓨터와 소통할 때는 어떻게 할까요?

예전에는 주로 키보드를 사용해 텍스트로 대화했지만, 스마트폰 등의 디바이스로 인해 키보드만으로는 한계에 부딪혔습니다. 그래서 멀티모달 인터페이스가 발전하게 되었습니다.

이제 음성, 제스처, 펜과 같은 다양한 방법을 사용하여 컴퓨터와 소통할 수 있고, 인공지능 기술의 발전으로 음성도 인식할 수 있어 사용자 친화적인 기술로 발전하고 있습니다.

멀티모달은 컴퓨터와 대화하는 여러 가지 방법을 의미합니다. 이때 “모달”은 대화 채널을 가리킵니다.

키보드나 마우스는 텍스트 입력을 위한 모달리티(대화 채널) 중 하나입니다. 그러나 다른 모달리티도 있습니다.

예를 들어 제스처(동작), 음성 입력, 표정 및 시선 인식 등이 있습니다. 이런 다양한 입력 방법을 결합하여 인간과 컴퓨터 간 자연스러운 대화를 가능하게 하는 것이 멀티모달입니다.

스마트폰에서도 멀티모달을 쉽게 볼 수 있습니다. 안드로이드 스마트폰에서는 텍스트를 입력할 때 키보드를 사용할 수 있지만, 마이크를 활성화하면 음성으로 입력할 수 있습니다.

이렇게 텍스트와 음성을 모두 사용할 수 있는 것이 멀티모달의 한 예입니다.

멀티모달은 두 가지 모달리티가 번갈아가면서 사용되기도 하지만, 때로는 동시에 사용됩니다.

예를 들어 게임에서는 키보드와 마우스를 동시에 사용합니다. 마우스는 시선과 방향을 조작하며 총을 쏘는 등의 동작을 수행하고, 키보드는 캐릭터의 이동을 담당합니다.

멀티모달 기술은 게임과 오락뿐만 아니라 사물인터넷과 연계되며 확산하고 있으며, 미래에는 더욱 발전하여 우리 주변에 있는 모든 것이 컴퓨터와 상호작용하는 세상이 될 것으로 예측됩니다.

멀티모달은 이미 10년 이상 동안 개발되어 왔습니다.

특허 출원을 보면 2009년부터 멀티모달 인터페이스와 관련된 출원이 증가해왔으며, 특히 생체신호를 활용한 출원이 급증하고 있습니다. 이것은 멀티모달 기술이 계속해서 발전하고 있다는 증거입니다.

제미니(Gemini) 탄생 비화

원래 처음 제미니(Gemini)가 언급됬을때는 AI 모델에 보상시스템을 적용해서 성능을 높이는 일종의 ‘강화 학습’을 사용한다는 정도였습니다. 이후 이를 위해 구글이 발빠르게 움직였는데요.

구글은 바로 자회사인 딥마인드를 통합해서 ‘구글 딥마인드’라는 조직을 신설하고, 이어서 ‘알파고’를 만들었던 데미스 허사비스 CEO를 구글 딥마인드에 끌여들였습니다.

이뿐만 아니라 구글 창업자인 세르게이 브린까지 합류에서 총력전을 벌이고 있는 것으로 알려졌습니다.

그리고 9월 오늘 제미니(Gemini)를 위한 test를 시행한다는 기사가 여기저기서 보이고 있는 것인데요.

짧은 기간에 개발된 것이긴 하지만 함께 하고 있는 구성원들을 보면 구글이 얼마나 심혈을 기울여서 만든 LLM 인지를 짐작할 수 있을 것 같습니다.

이 LLM은 멀티모달 특화라는 특징을 가지고 있는데요. 기본적으로는 기업을 대상으로 하고 있어서 test를 마치면 ‘구글 클라우드 버텍스 AI‘에서 기업용으로만 서비스 될 예정입니다.

이런 제미니의 특징으로는 유투브의 방대한 비디오 데이터를 학습해서 텍스트와 이미지, 코딩은 물론 비디오로 입출력이 가능하다는 점이 있습니다. 이 특징이 멀티모달이라는 것인데요.

아직 확정되어 발표되지 않아 정확한 기능을 확인하기 어렵지만, 구글은 자체 제작한 신경망처리장치(NPU)인 TPU를 수만개 이용해서 제미니를 훈련해온 것으로 알려져 있어 GPT-4와 비슷한 성능을 가지면서도 좀더 멀티모달적인 면이 부각된 형태의 LLM일 것으로 예상됩니다.

제미니(Gemini) 특징 – 구글 멀티모달 LLM

구글 첫 멀티모달 LLM 제미니(Gemini)

멀티모달

제미니(Gemini) 탄생 비화