멀티모달, ChatGPT로 보고 듣고 말한다

chatGPT에 사람과 음성으로 대화하고 이미지를 보고 대답하는 이미지 인식 기술과 음성변환 기능이 추가됩니다. 이 포스팅에서는 ‘멀티모달’ 의 개념 이해를 돕고, 이런 chatGPT의 변화가 우리 삶에 어떤 변화를 가져올 수 있는 지에 대해 쉽게 설명하고자 합니다.

이런 ‘멀티모달‘ 이란 개념이 생성AI에 추가된다는 것이 어떤 의미인지부터 안내드리겠습니다.

chatGPT, 멀티모달을 입다

기존의 chatGPT는 채팅의 형식으로 소통했습니다.

글로 질문을 하면 글로 대답을 하는 형식이었어서 의미전달에 한계가 있는데다가 원하는 대답을 듣기까지 프롬프트를 여러번 수정하여 입력해야 했습니다.

사람마다 문해력이 다르다 보니 어떻게 표현해야 하는 지에 대한 표현력이 달라서 그런 것인데요.

chatGPT는 이 문제를 ‘멀티모달’로 해결했습니다. 멀티모달이라는 기술이 완전 새로운 개념은 아닙니다.

이미 예전부터 음성인식 AI와 같은 분야에서 사용하고 있던 개념이었는데요.

쉽게 말해 글 뿐만아니라 이미지, 음성 등 다양한 방법을 통해 컴퓨터와 소통할 수 있게 한다는게 주요 포인트입니다.

chatGPT에서는 ‘보고 말하는’ 이미지 인식기술과 ‘듣고 말하는’ 음성 변환 기술이 추가되었습니다.

이제 chatGPT는 글로 써도 알아 듣고 말로해도 알아들으며 이미지를 보여주어도 알아듣는 진정으로 사람과 소통하는 AI가 되었습니다.

이 멀티모달 기능은 유료 서비스인 chatGPT 플러스와 chatGPT 엔터프라이즈 사용자에게 제공되고 있는데요.

이런 변화는 우리 삶에 어떤 변화를 가져올까요?

‘보고 말하는’ 이미지 인식 기술의 경우에는 보자마자 음식이 생각났는데요

퇴근후 우리가 저녁을 먹으려고 냉장고를 열었는데 메뉴를 생각하기 너무나 귀찮은 상황이 있다고 가정해 보겠습니다.

그러면 기존에는 냉장고에 뭐가 있는지 텍스트로 줄줄이 써서 chatGPT와 오랜 대화를 나누어야 원하는 결과를 얻을 수 있었습니다.

그러나 이제는 냉장고 문을 열고 재료를 사진찍어 업로드한 다음 chatGPT에게 이 재료들로 만들 수 있는 저녁 메뉴를 추천해 달라고 하면 됩니다.

귀찮은 과정이 아주 간단하게 변한 것입니다.

‘듣고 말하는’ 음성 변환 기능의 경우는 최근 인기를 끌고 있는 AI 기록관리 어플 ‘다글로’와 유사한 기능이라고 생각하시면 되는데요.

내가 말로 이야기 하면 이것을 텍스트로 그대로 변경해 주는 것입니다.

기존에도 메모어플같은곳에서 사용되긴 했지만 음성인식률이 좋지 않고 앞뒤 문맥을 이어주지 않아서 텍스트를 읽듯이 또박또박 말해야 사용이 가능해서 사용하기 불편한 점이 많았습니다.

이것을 chatGPT를 이용해서 음성인식률을 높이고 앞뒤 문맥을 자연스럽게 유추해서 문장을 만들어 냄으로서 편의성이 대폭 증가 되었습니다.

이런 음성변환 기능은 노령층의 chatGPT 이용률 증가를 높일 것으로 예상되는데요.

기존의 60대 이상은 AI에 대한 관심도가 매우 높지만 진입 장벽이 높아 실제 이용률은 매우 낮은 수치를 기록하고 있었습니다.

이런 상황에서 그냥 말만 하면 알아서 알아듣고 답을 내주는 chatGPT는 노령층의 이용률을 끌어 올릴 것으로 기대되고 있습니다.

물론 멀티모달 기술이 적용이 되어 있다고 해도 아직도 문법이 어색하거나 앞뒤 문장이 맞지 않는 할루시네이션 현상은 여전하지만, 쉽게 질문하고 답을 얻을 수 있다는 점에서 검색시장을 대체하는게 아니냐는 의견이 조심스럽게 다시 나오고 있는 상황입니다.

개인적으로는 chatGPT가 검색시장을 대신하진 않을 것이라는 생각입니다. 왜냐하면 chatGPT의 기반이 검색포털 사이트에 쌓인 수많은 데이터들이기 때문입니다.

만약 chatGPT때문에 검색사이트가 없어지게 되어서 컨텐츠를 생산하는 사람들이 없어지게 되면 chatGPT는 점점 이상한 답변을 내놓기 시작하며 품질이 급격히 떨어지기 시작할 것입니다.

이것은 비단 제 상상만으로 이야기하는 것은 아닙니다.

실제 chatGPT를 연구하는 학자들이 chatGPT에서 생산한 자료를 다시 재투입하여 학습시키는 과정을 반복한 결과 답변의 품질이 급격하게 떨어지는 현상을 발견했다고 합니다.

이게 생성 AI의 공통된 현상이니 미드저니 같은 이미지 생성AI든 이제는 멀티모달 서비스가 된 chatGPT같은 서비스이든 학습의 기반이 되는 시장을 대체한다는 것은 어불성설인 것이지요.

chatGPT가 끊임없는 학습을 할때 허락을 받고 하는 것이 아니라 무단으로 마구잡이 식으로 학습을 하는 방식이고 이 기능은 LLM모델의 핵심이기 때문에 결코 포기할 수 없는 부분인데요.

chatGPT가 멀티모달 기술을 적용한다고 하더라도 남의 창작물을 학습해서 무단으로 그 일부를 사용한다는 것은 달라지지 않기 때문에 이같은 논란은 앞으로 더 많아질 것이라는 평가가 많습니다.