다크버트(DarkBERT)가 왜 다크웹 특화 생성AI 모델인지 궁금하신가요?
또한 ChatGPT와는 어떤점에서 다른지 특징도 알고 싶으실거라고 생각합니다.
본 포스팅에서는 이런 특징부터 ChatGPT와의 비교, 그리고 세계적인 학회에서의 기술력 인증 이슈까지 모두 전달해 드리겠습니다.
목차
다크버트(DarkBERT) 특징
다크버트(DarkBERT)는 세계적 수준의 사이버위협 인텔리전스 분석 조직 ‘S2W’에서 개발한 다크웹의 언어에 특화된 AI 언어 모델이라 할 수 있는데요.
다크웹 데이터를 가지고 문장 내에서 중간에 있는 단어를 예측하게 되어 있는 자기지도 학습을 하는데요.
이걸 통해서 데이터를 많이 보면 볼수록 그 언어에 대한 감각을 깨우치는 과정을 스스로 거치게 되는 방식으로 개발되었습니다.
ROBERTa와 BERT에서 탄생한 다크버트
S2W에서 사용한 것은 구글 연구원이 2018년 도입해서 마스킹된 언어모델인 버트(BERT)와 이와 비슷한 pre-training단계의 하이퍼 파라미터를 바꿔가면서 실험 및 훈련한 언어모델인 로버타(RoBERTa)라는 모델인데요.
흔히 아시는 ChatGPT 같은 경우는 그 다음 단어를 예측하고 이거를 대화처럼 이어나가는 방식으로 진행되지만 버트(BERT)나 로버타(RoBERTa)와 같은 경우에는 문장에서 어떤 단어가 있는지 예측하면서 학습을 하게 되는데요.
다크웹 데이터를 많이 학습한 다크버트(DarkBERT)는 다크웹의 언어가 일반 웹에 있는 언어랑 다를 텐데 마약이나 해킹, 범죄류를 다루는 글도 그렇고 페이지 형식도 상당히 다를 수도 있고 일반 언어 모델은 이런 걸 이해를 잘 못할 수가 있는데요.
다크버트(DarkBERT)는 S2W에 있는 많은 데이터를 기반해서 이해도가 전반적으로 높은 편입니다.
S2W는 어떤 식으로 전처리를 해야 언어 모델 학습에 가장 유익할까를 고민한 결과 전처리 과정을 통해서 의미 있는 텍스트를 뽑아내고 의미 없는 부분은 지워주는 작업을 통해 언어 모델 학습을 효과적으로 더 했다고 합니다.
세계 3대 자연어 처리 학회의 인정
세계 3대 자연어 처리 학회로 ACL, NAACL, EMNLP를 많이 언급하는데요. S2W는 지난해 다크버트(DarkBERT)의 근간이 되는 ‘다크웹이 컨텐츠를 자동으로 분류하는 방법’이라는 주제로 논문이 채택이 되었고 이번에는 다크웹 언어 모델이란 주제의 논문이 ‘ACL’에서 채택 되었습니다.
이런 3대 학회에 빅테크 기업들이 논문을 발표를 하려고 하고 여기에서 논문이 채택이 되면 기술력을 인정 받은 것이라고 얘기하고 있습니다.
ChatGPT라고 하는 것은 생성형 언어 모델의 한 종류이고, 생성형 언어 모델이라고 하는 것은 사람이 이제 말하는 습관 언어 패턴을 학습한 모델입니다.
그래서 생성형 언어 모델 ChatGPT 같은 경우에는 문법적으로는 맞는 말 일수 있지만 의미론적으로는 틀린 말이라고 할 수 있습니다.
이런 것들을 흔히 할루시네이션이라고 표현을 하는데 일반적으로 사용할 때 재미는 줄 수 있겠지만 사이버 보안 기업에서는 ChatGPT를 바로 사용할 수 없는 이유가 되기도 했습니다.
사이버 보안 기업은 신뢰성과 정확성을 요구하는 제품과 서비스를 제공 해야 되기 때문이지요.
그래서 S2W는 ChatGPT에 사이버 보안 업체의 제품과 기능에 최적화된 그런 신뢰성 높은 기능을 접목시키는 연구를 진행하고 있다고 알려져 있습니다.
다크버트(DarkBERT)는 ChatGPT를 대체할 수 있는가?
다크버트(DarkBERT)는 ChatGPT와 목적이 다르기 때문에 다크버트(DarkBERT)가 ChatGPT를 완전히 대체한다고 보기는 좀 어렵습니다.
우선 ChatGPT는 일반적인 웹에 공개된 대량의 데이터로 학습이 되었습니다.
사람과의 대화를 자연스럽게 할 수 있도록 튜닝된 범용적인 대화 모델이니까 모델 크기가 매우 커서 개인이나 기업이 자신들의 pc나 서버에 가져와서 직접 설치해서 운영하기에는 어려운 면이 있는데요.
그렇기 때문에 클라우드로 연결하는 형태를 주로 취하고 있는데 보안업체가 ChatGPT를 쓸 때 ‘내가 ChatGPT에 입력한게 그쪽 클라우드로 흘러가지 않을까’ 하는 그런 우려가 있는게 사실입니다.
하지만 다크버트(DarkBERT)는 우선 다크웹에 있는 데이터로 학습을 했는데요. 그래서 다크웹 데이터에 있는 범죄나 위협과 관련된 정보를 탐지하고 추론하는데 특화되어 있어서 다크웹 특화 언어 모델이라고 할 수가 있습니다.
S2W의 로드맵
S2W도 다크웹에 대한 아주 전문적인 노하우가 있어서, 다크버트(DarkBERT)를 활용해서 다크웹에 존재하는 고객과 관련된 어떤 잠재적인 위협이 높은 그런 정보들을 빠르게 탐지하고 분류할 수 있다고 하는데요.
고객과 관련된 정보 그리고 그 중에서도 위협의 레벨이 아주 높은 정보를 고객에게 제공해주고 선제적으로 대응하는데 다크버트(DarkBERT)를 활용할 예정이라고 합니다.
현재 통합 딥다크웹 모니터링 시스템으로 기업용 Quaxar, 기관용 Xarvis 서비스를 SaaS 솔루션으로 제공하고 있는데요. 자세한 내용은 자료를 참고해주세요.
Very interesting information!Perfect just what I was looking
for!Raise your business