루시아GPT는 2번째 한국형 GPT서비스로 네이버의 clovax와는 약간 결이 다른듯합니다.
사업지원에 특화되어 있다는 느낌이 강했고, 회사측에서도 기업마다 맞춤으로 바로 적용이 가능하다고 홍보하고 있습니다.
무엇보다 할루시네이션이라고 하는 생성ai의 고질적인 문제를 대폭 개선하고 한국어에 강점을 가진 gpt서비스라고 하는데 진실을 어떨지 소개해드리겠습니다.
루시아GPT 할루시네이션 극복?
인공지능기업 솔트룩스는 9월7일 서울 코엑스 오디토리움에서 개최된 AI컨퍼런스 ‘SAC 2023’에서 기업시장을 겨냥해 자체 개발한 거대언어모델(LLM)’루시아(LUXIA)’를 공개했습니다.
이 LLM 루시아를 기반으로 개발된 챗봇 서비스가 루시아GPT인데요. 지난달 네이버가 공개한 ClovaX에 이어 2번째 한국형GPT입니다.
솔트룩스의 CEO 이경일 대표는 ‘SAC 2023’에서 루시아GPT의 특징으로 LLM기반 서비스의 공통적인 한계라고 지적받아 왔던 할루시네이션의 획기적인 감소를 이야기했습니다.
루시아GPT는 키노트를 통해 420만권 분량의 자료를 학습했다고 하는데요. 여기에 실시간 정보와 전문지식을 적용하는 기술로 정보의 정확성을 높였다고 합니다.
구체적으로 살펴보면, 지식그래프를 활용한 Factual Grounding과 검색 증강생성이라는 2개의 접근법을 연계해서 해결했다고 하는데, 근본 기술인 지식그래프가 처음 듣는 용어라서 찾아봤습니다.
지식그래프
지식그래프는 솔트룩스가 2019년에 발표했던 AI 기술인데요. AI 그래프를 말하는데 대량의 데이터를 분석해서 데이터간의 연관관계를 시작화해 줍니다.
애초에 지식그래프가 특별한 ai만의 기술 같은게 아니라 원래 있던 개념을 ai에 적용한것뿐인데요. 지금은 카카오 네이버 이런 ai에 한발걸치려는 곳은 다쓰는 분위기이고, 기업마다 이걸 정리하고 시각화하는 알고리즘이 다른것 뿐입니다.
AI에 지식그래프가 필요했던 이유를 한국말의 경우에 비유해서 설명해보면 조금 더 쉽게 이해할 수 있습니다.
만약 ai스피커에게 ‘임오군란이 언제 일어난 년도는?’이라고 묻는다면, ‘임오군란아 너는 누나가 깨우지 않아도 알아서 일어나는 좋은 아이구나!’ 라고 대답하는 경우도 생깁니다. 이건 있었던 대답인데요.
이런 일이 일어나는 이유는 AI스피커가 질문의 의도를 파악하지 못했기 때문이예요.
우리나라 말의 특징이라고도 할 수 있는데, ‘일어나다’ 라는 동사의 의미가 신체가 일어나는 경우도 있고, 어떤 일이나 사건이 발생한다는 의미도 있잖아요?
이걸 우리는 문맥으로 추측해서 바로 판단이 가능한데 AI는 그게 안되었던 거지요.
즉, 정보를 분석할 때, 단아와 단어 사이의 관계, 문자의 흐름을 고려해서 이해할 수만 있다면 이런일이 일어나지 않을 겁니다.
이런 문제를 해결해주기 위해 AI에 적용한 기술이 바로 지식그래프(Knowledge Graph)입니다.
많은 양의 데이터와 그 데이터간의 관계를 시각적으로 한눈에 알아보기 쉽게 정리한 포맷인 것입니다. 마치 마인드맵같다고도 할 수 있겠네요.
이 기술을 이용하면 단순한 키워드이 조합이 아니라 문맥의 흐름을 이해할 수 있는데요. 대표적으로 검색엔진의 최강자인 구글이 이 지식그래프를 성공적으로 적용한 사례로 알려져 있어요
이처럼 지식그래프는 사람처럼 문맥을 이해해야 하며 방대한양의 데이터를 빠르게 처리할 수 있고 즉각적인 판단이 필요한 분야에서 효과가 좋은 기술입니다.
그래서 이걸 이용해서 할루시네이션을 개선시켰다는 주장은 신빙성있어 보입니다. 물론 제품을 실제로 써봐야 알겠지만요.
이것만으로 할루시네이션을 잡았다고 하면 좀 억지인 느낌이 있는데, 지식그래프를 기반으로 2가지의 색다른 접근법을 적용시킴으로써 개선했다고 하니 이 2가지 접근방법이 핵심기술로 생각됩니다.
솔트룩스 성능 및 서비스
솔트룩스의 김재은 랩장은 이 기술들을 적용해서 할루시네이션에 대해 테스트한 결과 오픈AI의 ‘GPT-3.5’와 메타의 ‘라마(Llama)2’에 비해 한국어에 한정이긴 하지만 40%나 우수한 성능이 측정되었다고 합니다.
이게 사실이라면 정말 현존하는 한국어 특화 GPT서비스라고 할 수 있을 것 같습니다. 이외에도 clovax와 마찬가지로 한글 데이터를 위주로 학습시켜 한글에 강점을 보일 것으로 예상되는데요.
솔트룩스측에서 공개한 자료에 따르면 그동안 1TB이상의 한글 데이터를 학습시켰다고 합니다.
솔트룩스는 루시아GPT 외에 언어모델 구축 솔루션 ‘랭기지 스튜디오’, 인지검색 솔루션 ‘서치 스튜디오(Search Studio)’, 인공지능 기반 지식그래프 솔루션 ’날리지 스튜디오(Knowledge Studio)’ 등 다양한 제품이 포함된 ‘루시아 엔터프라이즈’도 공개하고 있습니다.