딥시크, 중국에서 개발된 저비용 고성능 ai로 단 2달만에 챗gpt의 20분의1 비용으로 개발되었으나 놀라운 성능으로 세계를 놀라게 했는데요. 이 ai에 대해 얼마나 아시나요? 어떤 회사이며 왜 미국에서 이렇게 난리인지 성능은 물론 핵심 기술까지 정리해드리겠습니다.
최근 미국 기술계를 발칵 뒤집어 놓은 중국의 AI 스타트업 딥시크(DeepSeek)가 저비용으로 고성능 AI 모델을 개발하며 전 세계의 이목을 집중시키고 있어요.
“갓벽한” 성능의 딥시크, 도대체 어떤 회사길래?
딥시크는 2023년 5월 중국 항저우에서 설립된 신생 AI 기업이에요. 1985년생 량원펑이라는 청년 사업가가 설립했는데, 그는 이전에 헤지펀드를 운영하면서 딥러닝 기반 컴퓨터 트레이딩으로 성공을 거둔 경험이 있죠. 특히 주목할 만한 점은 딥시크의 최신 모델 R1이 2024년 AIME 벤치마크 테스트에서 79.8%를 기록하며 오픈AI의 o1(79.2%)을 앞질렀다는 거예요.
게다가 이런 뛰어난 성능의 모델을 단 557만 달러(약 78억 원)로 개발했다는 게 더 놀라워요. 이는 메타나 오픈AI 같은 미국 빅테크 기업들이 투자하는 비용의 약 10분의 1 수준이라고 해요.

딥시크 성장 과정을 더 자세히 들여다보면 정말 흥미로워요. 이 회사는 2023년 11월에 첫 오픈소스 AI 모델인 ‘딥시크 코더’를 시작으로, 2023년 5월에는 ‘V2’, 12월에는 ‘V3’, 그리고 최근에는 ‘R1’까지 연이어 성공적인 모델을 출시했어요. 특히 최신 모델인 R1은 강화학습(Reinforcement)만으로 학습된 모델인데, 놀랍게도 단 두 달 만에 개발됐다고 해요.
더 놀라운 건 회사의 기반이에요. 창업자 량원펑이 운영하던 펀드 ‘하이-플라이어’는 이미 2019년부터 AI 개발을 위한 칩을 비축해왔다고 해요. 현재는 엔비디아의 GPU(H100, H20, H800) 약 5만 개를 보유하고 있다고 하니, 얼마나 철저하게 준비했는지 알 수 있죠. 이런 전략적인 준비가 있었기에 미국의 제재 속에서도 빠르게 성장할 수 있었던 거예요.
아래는 딥시크 모델별 주요 성능이예요.
딥시크-R1
-AIME 2024 벤치마크 테스트: 79.8% 기록 (오픈AI의 o1 모델 79.2% 상회)
-오픈AI의 o1과 동등한 성능이지만 추론 비용은 90% 이상 저렴
-출시 일주일 만에 허깅페이스에서 10만 건 이상 다운로드 기록
딥시크-V3
-6,710억 개의 매개변수 보유 (실제 활성화는 370억 개로 최적화)
-22개 평가 테스트 중 13개 부문에서 경쟁 모델(GPT-4o, 라마 3.1, 클로드 3.5) 상회
-수학 문제 테스트(MATH-500)에서 97.3% 정확도 기록
“미쳤다!” 미국 빅테크도 놀란 딥시크
딥시크가 이렇게 저비용으로 고성능 AI를 만들 수 있었던 비결이 정말 흥미로워요. 가장 큰 특징은 ‘디스틸레이션’ 기법을 활용했다는 건데요. 이건 마치 선생님(큰 AI 모델)이 학생(작은 AI 모델)을 가르치는 것처럼, 복잡한 모델의 지식을 작은 모델에 효율적으로 전달하는 방식이에요.

아래는 딥시크 공개된 이용 효율성을 정리해본건데 놀랍지 않나요? 기존에 개발된 챗 gpt 개발 비용의 20분의 1이라는 놀라운 개발비와 임대 비용이나 개발 기간 등이 차이가 엄청나서 미국의 기술주들이 주가가 우르르 하락하기도 했어요.
-총 개발 비용: 557만 달러 (챗GPT 개발 비용의 약 1/20)
-GPU 임대 비용: 시간당 2달러
-개발 기간: 약 2개월
-기존 AI 개발 대비 약 10~20% 수준의 비용으로 구축
또 미국의 반도체 수출 규제로 최신 GPU를 쓸 수 없게 되자, 오히려 저사양 GPU를 효율적으로 활용하는 방법을 개발했어요. 구체적으로는 엔비디아의 H800 칩 2,048개를 활용해서 비용은 줄이면서도 뛰어난 성능을 달성했답니다.
딥시크의 기술적 혁신은 정말 대단해요. 특히 주목할 만한 건 MoE(혼합 전문가) 아키텍처를 활용한 거예요. V3 모델의 경우 6,710억 개의 매개변수를 가지고 있지만, 실제로는 약 370억 개만 선택적으로 활성화시켜서 효율성을 극대화했어요. 이건 마치 거대한 도서관에서 필요한 책만 골라 읽는 것과 비슷한 원리죠.
또 딥시크만의 특별한 HAI-LLM 훈련 프레임워크도 있어요. 이건 파이프라인 병렬성(PP), 전문가 병렬성(EP), 데이터 병렬성(DP)을 최적화해서 훈련과 추론 과정의 효율성을 극대화하는 기술이에요. 덕분에 저사양 GPU로도 뛰어난 성능을 낼 수 있었죠. 실제로 이런 혁신적인 접근 덕분에 딥시크의 R1은 애플 앱스토어와 구글 플레이스토어에서 무료앱 1위를 차지하기도 했어요.
아래는 딥시크 핵심 기술을 정리해봤어요.
디스틸레이션(Distillation) 기법
-Teacher Model(큰 모델)의 지식을 Student Model(작은 모델)에 효율적으로 전달
-Soft Labels 생성을 통한 지식 전달 최적화
-작은 모델로도 고성능 달성 가능
MoE(Mixture of Experts) 아키텍처
-전체 6,710억 개 매개변수 중 370억 개만 선택적 활성화
-불필요한 연산 제거로 컴퓨팅 자원 효율화
-성능은 유지하면서 비용 크게 절감
HAI-LLM 훈련 프레임워크
-파이프라인 병렬성(PP)
-전문가 병렬성(EP)
-데이터 병렬성(DP)
-세 가지 병렬 처리 최적화로 훈련/추론 효율성 극대화
GPU 활용 최적화
-H800 GPU 2,048개 활용
-저사양 GPU로도 고성능 구현
-모델 설계 단계에서 파라미터 경량화
“실리콘밸리 발칵” 딥시크, 미국 기술계를 뒤흔든 이유
실리콘밸리가 딥시크를 주목하는 이유는 정말 다양해요. 마이크로소프트의 CEO 사티아 나델라는 “딥시크의 슈퍼 컴퓨팅 효율성이 매우 인상적”이라며 극찬했고, 넷스케이프 발명가 마크 앤드리슨은 “가장 놀랍고 인상적인 혁신 중 하나”라고 평가했어요.
특히 딥시크의 V3 모델은 6,710억 개의 매개변수를 가지고 있지만, 실제로는 약 370억 개만 활성화시켜서 효율성을 극대화했다는 점이 주목받고 있어요. 게다가 이 모델들을 오픈소스로 공개해서, 현재 허깅페이스에서 일주일 만에 10만 건이 넘는 다운로드를 기록했다고 해요.
다만 일부에서는 중국 정부의 검열 가능성을 우려하는 목소리도 나오고 있어요. 예를 들어 AI 분석 플랫폼 던의 CEO는 천안문 사태에 대한 질문에 딥시크 모델이 제대로 된 답변을 하지 못했다고 지적하기도 했죠.

딥시크의 등장은 미국 기술 시장에 엄청난 파장을 일으켰어요. 특히 주식 시장에서의 반응이 매우 극적이었죠. 엔비디아의 주가가 무려 17%나 폭락했고, AMD(-6.37%), 암홀딩스(-10.19%), ASML(-10.19%), TSMC(-13.3%) 등 관련 기업들도 큰 타격을 받았어요.
이런 충격은 AI 산업 전반으로 확산됐는데요, 특히 AI 데이터센터 관련 기업들이 큰 영향을 받았어요. 전력 공급업체인 콘스텔레이션 에너지(-20.85%), 비스트라 에너지(-28.27%), GE버노바(-21.52%) 등이 큰 폭으로 하락했죠. 이건 딥시크가 보여준 저비용 고효율 AI 개발 가능성이 기존 AI 인프라 투자 전략에 대한 재고를 촉발했기 때문이에요.
하지만 번스타인의 스테이시 라스곤 애널리스트는 “이는 AI 구축의 종말이 아니다”라며, 오히려 AI 수요가 계속 증가할 것이라고 전망했어요. 엔비디아도 성명을 통해 “딥시크의 발전이 오히려 자사 칩 수요를 증가시킬 것”이라고 밝혔죠. 결국 딥시크의 등장은 AI 산업의 새로운 변화와 혁신을 예고하는 신호탄이 된 셈이에요.