챗GPT - 업계 시선이 곱지 않은 이유

‘챗GPT’ 는 언어모델의 한 종류로 많은 사람들의 사랑은 받고 있지만 업계 사람들의 시선이 곱지 않은 편인데요. 그 이유를 알려면 인공신경망, 언어모델의 원리를 아셔야 합니다. 끝까지 읽어 보시면 낮설었던 단어들의 의미와 챗GPT의 원리와 왜 이렇게 거대해 질 수 있었는지 아시게 될 것이라 생각해요.

'챗GPT' 에 대한 업계 시선이 곱지 않은 이유에 대해 설명하기 위해 텍스트 이미지를 사용함

1 챗GPT 발달의 특이점 – 인공신경망
- 1.1 언어 모델의 탄생
2 언어 모델을 만드는 2가지 방법
- 2.1 다음 단어 유추하기
- 2.2 빈칸 맞추기
3 챗GPT & 업계 시선
- 3.1 MS의 대규모 투자
- 3.2 챗GPT & 후발업체

챗GPT 발달의 특이점 – 인공신경망

AI의 발달은 ‘특이점’이라고 부르는 특정한 임계점을 넘어선 것으로 평가되고 있습니다. 오히려 이를 넘어 매년 가속화되고 체계화 되고 있죠.

어떤 분야든 고도화가 진행될수록 조금 더 세부적으로 분야가 나뉘어지는 경향이 있는데요.

최근 IT 분야가 이런 현상이 심해져서 이제는 단순히 IT엔지니어라는 말이 의미가 없을 만큼 전문화 되어 가고 있습니다.

심지어 자신의 분야가 아니면 전문가들도 정확히 알지 못하는 사람들이 대다수 인데요.

AI도 이런 현상에 맞게 세분화가 이루어지고 있습니다.

일반적으로 수치를 해석하고 예측하는 전통적인 AI분야가 가장 일반적이지만 최근에는 이미지나 동영상을 분석하고 결과를 보여주는 컴퓨터 비전이라는 기술도 크게 성장하면서 전문화 되고 있습니다.

이뿐만 아니라 사람 말의 의도나 주요 단어를 중심으로해서 전체 내용을 요약해 준다거나 말속에 담겨 있는 감정을 분석하는 자연어 처리라는 분야도 성장하고 있는 등 AI분야의 성장 가속도가 무서울 정도로 빨라지고 있는 것 같습니다.

‘챗GPT’ 는 이런 자연어 처리 기술의 하나로 볼 수 있는데요.

흔히 대화형 챗봇이라고 하죠? 원래는 딥러닝을 기반으로 하는 같은 AI 기술로 분류되어 사용되었으나 챗GPT의 발전이 가속화 되면서 이제는 마치 다른 분야처럼 차이가 벌어지고 있습니다.

언어 모델의 탄생

초기 자연어 처리 기술들은 문장을 분해하고 해석하는데 있어 문법적으로 딱딱하게 접근하는 경우가 많았다고 해요. 그런데 이게 한계가 있어 결국 벽에 부딛히게 되는데요.

그 이유가 사람이 평소에 문법에 맞게 완벽하게 말을 하는 사람이 그렇게 많지 않기 때문이라고 해요.

생각해보면 우리도 완벽한 문법에 맞게 한국어를 사용하지 않고 언어유희를 쓰기도 하고, 말을 극단적으로 줄이기도 하고, 주어를 아에 생략해서 사용하는 경우도 많잖아요?

컴퓨터는 이런 문법에서 벗어나는 말들을 전혀 해석하지 못하는 현상이 발생하니 다른 방법을 찾아야 했어요.

그게 바로 언어 모델이라는 것을 만드는 것이예요. ‘챗GPT’ 는 이 언어 모델을 활용해서 인간의 말인 자연어를 처리하는 기술로 볼 수 있습니다.

언어 모델은 통계적인 방법으로 만드는 방법과 인공신경망을 이용하는 방법이 있는데요.

최근 연구 성과들을 보면 통계적인 방법보다 인공신경망을 사용한 방법들이 워낙 성과가 좋아서 지금은 언어 모델이라고 하면서 별다른 언급이 없으면 인공신경망을 의미한다고 생각하시면 됩니다.

언어 모델을 만드는 2가지 방법

‘챗GPT’ 는 언어모델의 한 종류입니다. 이런 언어 모델을 만드는 방법도 여러가지가 있을터이지만 가장 유명한 2가지 방법을 기준으로 설명드리겠습니다.

다음 단어 유추하기

어릴때 단어 맞추기 해보신적 있으신가요? 예컨데 아래 처럼 단어 뒤에 올 말을 비워놓고 맞추는 놀이를 하는 것입니다.

보통 앞단어로 서두를 열면 이어서 뒷말을 맞히는 식으로 진행되는데요.

회사 [ ]

국민 [ ]

급여 [ ]

이렇게 단어들이 나오면 저는 회사 생활, 국민 은행, 급여 통장 이런 단어가 제일 먼저 떠오르는데요. 이렇게 자기도 모르게 유추되는 말들이 있죠.

그것은 우리가 단어 다음에 오는 단어들을 오랜시간 동안 학습했기 때문에 가능한 것입니다.

AI도 인터넷에서 떠도는 말이나 책, 잡지, 논문, 기사 등 모든 분야의 문장들을 계속해서 학습하다 보면 특정 단어 다음에 나오는 단어들에 대해서 확률적으로 예측하는게 가능해지는데요.

이중에서도 가장 가중치가 높은 단어들을 선택하는 방식으로 단어를 자연스럽게 완성하게 됩니다. 이런 가중치는 컴퓨터가 수많은 자료들을 학습하는 과정에서 얻을 수 있는 통계의 산물인데요.

이런 통계자료가 모이게 되면 자동으로 단어들을 연결해서 문장까지 완성할 수 있는 단계에 이르게 됩니다.

빈칸 맞추기

두번째는 빈칸 맞추기인데요. 첫번째의 다음단어 유추하기와는 조금 다르게 앞과 뒤에 오는 단어를 중심으로 가중치를 두는 방식입니다.

나보기가 역겨워 [ ] 때에는

죽어도 아니 눈물 [ ]오리다

연변의 약산 진달래[ ]

사뿐히 즈려밟고 [ ]옵소서

이런 김소월의 진달래꽃 문구가 있다고 해보겠습니다. 이때 진달래꽃을 굳이 접해보지 않았다고 하더라도 괄호 안에 올 내용을 유추기란 어렵지 않습니다.

그 이유는 우리가 단어 앞 위에 올 단어를 여러 경험 통해 학습하고 있었기 때문인데요.

컴퓨터가 이렇게 중간 단어를 유추하는 방식으로 학습하는 것을 마스크 언어 모델이라고 합니다. 결과적으로 언어 모델은 자연어의 풍부한 문맥을 잘 구조화시켜 좋은 것이라고 할 수 있는데요.

AI가 사람의 말을 학습하는 과정을 보면 인공신경망을 사용해서 매우 어렵고 복잡한 과정을 거치는 것은 사실이지만 사실 원래 자체는 우리가 학습하는 원리를 따르고 있어 어찌보면 간단하다고 할 수 있습니다.

챗GPT & 업계 시선

여기까지 잘 따라오셨습니다. 그럼 이런 언어 모델은 얼마나 학습을 해야 쓸만해 질까요?

다다익선이라해서 많이 학습시키면 시킬수록 당연히 더 정확한 결과를 도출해 내서 좋을 테지만 비용이 천문학적으로 소요된다고 알려져 있는데요.

오픈AI를 예로 들면 GPT-3를 학습시키는 데만 대략 150억~340억 원 정도가 소요된 것으로 추정되고 있는데요. 지금 GPT-4.5 Turbo까지 나와으니 소요비용 또한 어마어마해서 운영비에만 하루 1억원이상 든다고 해요.

왠만큼의 수입으로는 적자라는 것이지요. 이처럼 현실적인 문제가 있기 때문에 적당한 선에서 타협을 해야 하는데요.

언어 모델은 점진적으로 그 몸집을 키워가면서 발전해 왔습니다. 초기에 성과를 내던 선두기업은 구글이었습니다. 최근에도 ‘제미니’를 선보이며 어마어마한 투자를 계속하고 있는데요.

구글이 2018년 발표한 BERT 모델은 발표와 동시에 자연어 처리 분야에서 최고의 성능을 보여주면서 역사적인 한 획을 그은 모델로 평가받습니다.

BERT는 위키 백과의 25억개 단어와 BookCorpus의 8억개 단어를 학습해서 만들어졌는데 기본적인 원리는 ‘빈칸 맞추기’ 모델이었습니다. 지금의 GPT 모델들과 비교하면 초라하지만 당시에는 엄청난 학습량으로 주목받았습니다/

일반적으로 딥러닝으로 학습된 결과물인 모델의 복잡성을 모델 파라미터 수로 측정하는데 이렇게 학습된 BERT 모델은 3억 4천만개의 마라미터를 가지고 있었다고 합니다.

구글이 BERT를 발표할 무렵 오픈AI는 GPT를 발표했는데 GPT는 BERT 모델처럼 BookCorpus와 더불어 다양한 장르의 미발행 도서 7천권에서 가져온 4.5Gbyte 분량의 텍스트를 가지고 학습했습니다. 이때 GPT모델의 마라미터 수는 무려 1억 2천만개였다고 해요.

GPT는 ‘다음 단어 유추하기’ 방식을 사용하기 때문에 당시에는 완성도가 낮아서 헛소리할 때가 많았다고 해요. 그래서 구글의 BERT보다 낮은 평가를 받고 있었습니다.

하지만 아시다시피 최근 1~2년간 넘사벽이 되었는데, GPT의 완성도가 드라마틱하게 올라가게 된 사건을 소개해드리겠습니다.

생성형 AI 주요사건 2가지

MS의 대규모 투자

GPT는 MS라는 든든한 스폰서를 만나면서 양적으로 크게 성장하기 시작했습니다.

GPT-2가 나오면서 40Gbyte의 웹 텍스트 데이터, 8백만개의 문서, Reddit에서 찬성 투표된 4,500만개의 웹페이지를 학습하면서 파라미터 수는 가볍게 15억개를 넘어섰습니다.

사실 이때부터 IT에 대해 관심을 가지는 사람들 사이에서 GPT가 언제 한번 큰일을 낼 것 같다는 소문이 나왔다고 하네요.

오픈AI는 계속해서 파라미터를 추가해서 GPT-3을 개발했는데 이때 파라미터 수가 1,750억개로 늘어났습니다.

고작 한 버전 차이인데 116배가 차이가 나게 되니 이제는 아무 내용이나 대충 던져도 거의 다 맞출 수 있는 지금의 성능을 갖추게 된 것입니다.

이 정도 성능의 모델을 만들어내기 위해서는 앞서 말한 것처럼 엄청난 인력과 인프라가 필요한데요. 오픈AI가 혼자서 그 일을 모두 맡을 수가 없으니 자신은 연구개발에 몰두하고 나머지를 맡아주고 투자해줄 곳을 찾기 시작했습니다.

그렇게 선택된 곳이 바로 MS(마이크로소프트) 입니다. MS에는 애저라는 세계 최대 수준의 클라우드 서비스가 있었고 이를 기반으로 GPT 모델들의 방대한 데이터를 학습 시킬 수도 있었습니다.

무엇보다 MS가 애저를 쓰는 조건으로 무려 100억달러 한화로 약 12조 3500억원에 달하는 어마어마한 투자를 진행하기로 하면서 GPT모델들의 발전 가속도가 점점 빨라지게 되었습니다.

저 투자로 MS는 오픈AI의 지분 50%를 소유한 대주주가 되었는데요. 아이러니한 것은 현재는 MS도 오픈AI와 생성형 AI 기술로 경쟁하고 있다는 것입니다.

챗GPT & 후발업체

그렇게 2022년 11월 오픈AI가 GPT-3를 기반으로 사용자와 채팅으로 대화할 수 있는 챗GPT 모델을 선보이자 시장의 반응이 뜨거워 졌고 그 열기가 아직까지 지속되고 있는 것입니다.

예전에 전쟁을 할때는 전술 전략이라는게 의미가 있었습니다. 그래서 늦게 시작한 기업이라 하더라도 IT 전쟁에서 기술력으로 커버할 수 있었지요.

하지만 ‘챗GPT’ 의 경우 압도적인 투자금과 인프라를 바탕으로 말도 안되는 파라미터 수를 매년 추가하며 양적으로 완전히 압도하는 지격에 이르렀습니다.

그렇기에 같은 업계에 있는 후발 주자들은 구글, MS 같은 대기업이 아닌이상 따라가기 불가능한 수준에 있고, 챗GPT가 다양한 서비스와 결합되어 코딩, 기획안 작성, 영어 회화 등의 서비스 영역을 침범하게 되면서 업계 사람들의 시선이 곱지만은 않은 실정입니다.

챗GPT – 업계 시선이 곱지 않은 이유