MS 에보디프 – 단백질 생성AI 란?

단백질 생성AI를 아시나요? 요즘 글로벌기업에서 앞다투어 투자하고 있는 생명공학 AI 모델이라고 할 수 있는데요. 주로 대체식량이나 신약 개발을 위해 사용될 것으로 기대되고 있습니다.

최근 MS에서는 ‘에보디프’ 라는 단백질 설계시 간극을 극단적으로 줄이는 단백질 생성 AI의 프레임워크를 오픈소스로 공개해서 화제가 되고 있는데요.

하지만 단백질 생성AI가 뭔지 이게 왜 중요한 것인지 이해하기 어려운 부분이 있어서 쉽고 간단하게 정리해봤습니다.

끝까지 읽으시면 생명공학에서 생성AI를 어떻게 사용하고 있는지 아실 수 있을 것입니다.

에보디프라는 단백질 생성ai 모델을 활용한 대표적인 분야가 신약개발이라는 것을 설명하고, 이 신약개발의 기간 단축을 어떻게 이루는지에 대한 내용이 포스팅에 기재되어 있다는 것을 암시한다.


‘에보디프’, 개발 배경

생명공학 분야에서 AI에 대한 관심이 매우 뜨겁습니다 특히 생성AI가 여러 회사에서 출시되기 시작하면서 AI 기술을 생명공학에 적용시킬 수 있는 혁신적인 아이디어들이 연이어 등장하고 있는데요.

그중에 한 아이디어가 바로 단백질 생성AI입니다. 단백질 생성AI는 AI 기술을 이용해서 단백질 구조를 예측하고 새로운 단백질 구조를 설계하는 기술을 말하는데요.

이 기술이 유명세를 탄 이유는 신약 개발 등 상업적 가치가 대단히 높은 분야에서 실용적으로 사용될 수 있기 때문이고, 생산성을 극대화 할 수 있는 기술이기 때문입니다.

이런 세계의 흐름에 발맞추어 MS에서도 단백질 생성AI의 프레임워크인 ‘에보디프’ 를 오픈소스로 공개해 화제가 되고 있습니다.

보통 이런 기술들을 미완성인 상태로 공개하고 함께 키워 나가자는 방식은 거의 사용되지 않아 더 큰 화제가 되고 있는 것 같습니다.

의학분야가 기술적으로 매우 페쇄적이다보니 관련AI 기술 또한 그럴 것이라는 선입관이 깨지게 된 좋은 계기가 되었는데요.

이번에 공개한 에보디프는 단백질 서열을 기반으로 새로운 단백질을 생성하는 범용 프레임워크로 개발되었습니다.

그래서 다양한 케이스와 다각도로 검토된 의견이 필요한 프로젝트라고 할 수 있는데요. 이 같은 이유 때문에 프로젝트의 완성도를 높이기 위해서 오픈소스를 선택한것은 아닌가 싶기도 하네요.


단백질 생성AI 기본 원리

아무튼 이런 단백질 생성AI는 일반인들에게 생소한 편이라 개념이나 용어가 많이 헛갈리실것 같은데 최대한 쉽게 풀어서 설명드리도록 하겠습니다.

단백질은 일종의 유기체 빌딩 블록이라고 할 수 있는데요. 마치 레고처럼 어떻게 쌓아 올리느냐에 따라 고기가 되기도 하고 신약이 되기도 합니다.

단백질 안의 구조를 조금 살펴보면, 총 20개의 고유 아미노산 사슬이 있기 때문에 조합에 따라 거의 무한대의 독특한 특성을 지닌 단백질이 만들어 질 수 있습니다. 이 각각은 특정 아미노산 서열이라는 것으로 암호화되는데요.

단백질 생성AI는 보통 단백질의 모양과 크기, 기능과 같은 구조적 특징들을 설정해주면 그에 맞춰서 단백질 디자인을 생성해주는 형태를 취하고 있습니다.

즉, 단백질 구조적 정보에 대해서 이미 알고 완성된 단백질 디자인을 어느정도 예측할 수 있어야 실사용이 가능하다는 약간 번거로운 단점이 있습니다.


단백질 설계의 간극을 없앤 ‘에보디프’

하지만 MS에서 개발한 에보디프의 경우는 단백질의 구조적 특성과 같은 정보를 시스템에 제공하지 않아도 단백질 서열만 제공하면 사용가능한 아미노산 서열을 알아서 찾은 다음 새로운 단백질을 디자인하는 방식을 취하고 있다고 합니다.

이런 방식이 기존과 다른 점인데요. 이전 지식이 많이 필요하지 않아 기존 시스템보다 더 대중적으로 사용할 수 있을 것으로 예상되고 있습니다.

이뿐만이 아닙니다. 단백질을 디자인하는 방식에도 차별화가 되었는데요.

이미지 생성AI와 비슷한 ‘에보디프’ 방식

단백질 서열을 입력하면 ‘에보디프’ 는 스테이블 디퓨전이나 달리 같은 이미지 생성AI와 유사한 방식으로 결과를 도출해 냅니다.

이게 무슨 말이냐하면, 스테이블 디퓨전이나 달리는 입력에서 노이즈를 제거해서 이미지를 생성하는 방식을 취하고 있는데요.

이런 방식을 취하게 되면 매우 다양하면서도 독특한 모델들을 많이 만들어낼 수 있습니다.

또한 임의의 픽셀 혼란을 주면 이를 인식 가능한 이미지로 바꿀 수도 있어서 다양성과 품질을 모두 잡을 수 있는 훌륭한 모델입니다.

이런 방식을 단백질 디자인에서도 똑같이 적용을 했는데요.

100% 노이즈로 구성된 단백질에서 시작해서 점차 노이즈를 제거하는 방식으로 학습을 거칩니다. 이렇게 학습된 에보디프는 단계별로 주어진 단백질 서열에 가까운 새로운 단백질 서열을 생성하게 됩니다.

에보디프는 이렇게 단백질 설계의 간극을 줄이기위해 설계되었지만 아직 연구 초기 단계라서 이렇게 만들어진 단백질이 제대로 생존할 수 있을지 여부도 확인 되지 않아서 실제로 test를 진행하다보면 상용화 까지는 생각보다 많은 시간이 소요될 거라고 생각됩니다.

현재까지는 6억 4000만개의 매개변수 모델을 가지고 있는데, 향수 수십억개의 매개변수를 가진 모델로 개선할 수 있도록 프로젝트를 진행할 예정이고, 그때가 되면 휠씬 더 높은 품질의 단백질을 설계할 수 있을 거라고 로드맵을 이야기 하기도 했습니다.


단백질 생성AI가 대중화된다면,

이런 ‘에보디프’ 같은 단백질 생성AI 기술은 우리 삶에서 굉장히 혁신적일 수 있습니다. 가장 큰 예시가 바로 약입니다.

신약을 개발하면 비용이 무식하게 비싼이유가 바로 이런 개발기간이 매우 많이 소요 되기 때문인데요.

새로운 AI 기술을 통해서 단백질 설계의 간극을 극단적으로 줄이고, 더 새로운 형태와 특징을 가진 신약을 공장에서 찍어내듯 24시간 만들어내게 된다고 생각해보세요.

만약 그렇게 된다면, 정말 신약을 과자 사 먹듯이 사 먹을 수도 있을것입니다.

AI는 인간처럼 밥을 먹을 필요도, 화장실을 갈 필요도, 잠을 잘 필요도 없습니다.

그렇기에 쉼없이 생산할 수 있고 스스로 모델을 개선해서 점점더 좋은 품질의 신약을 빠르게 내놓는다면 우리 생활이 더 윤택해질 것은 분명한 것 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다