GH200 - AI용 최강 GPU

GH200이 뭔지 어떤 제품이길레 독점현상까지 일어나는지 궁금하신가요?

GH200은 현재 시장에서 최소 등급을 받고 있는 H100보다 같은 용량을 3~4배이상 빠르게 처리할 수 있는 괴물 칩인데요.

그 특성상 AI모델에 활용하기 적합해서 AI전용 GPU시장에서 각광받고 있습니다.

출시는 2024년 으로 예정되어 있지만 벌써부터 선점경쟁이 치열하다고 하는데 왜 그런지 지금부터 알려드리겠습니다.

GPU시장을 장악한 엔비디아

현재 GPU 시장은 엔비디아가 80% 이상의 시장점유율을 차지하고 있다. 하드웨어 측면에서는 직접적인 대안이 없을 수 있지만 실제 과제는 Nvidia GPU를 지원하는 소프트웨어 생태계에 있습니다.

CUDA로 알려진 이 생태계는 Nvidia의 GPU를 구동하는 데 중요한 역할을 하며 다양한 AI 개발 프레임워크, 라이브러리 및 도구에 최적화되어 있습니다.

이로 인해 AI 개발, 특히 생성 AI의 경우 다른 하드웨어 옵션으로 전환하기가 어렵게 되었는데요.

엔비디아가 시장에서 강력한 입지를 점하고 있는 것은 GPU 프로세서의 지속적인 개발과 AI 개발을 촉진하는 필수 소프트웨어 개발에 기인합니다.

지난 10년 동안 Nvidia는 단순한 구성 요소 공급업체에서 AI 개발을 위한 포괄적인 원스톱 플랫폼으로 전환하기 위해 300억 달러 이상을 투자했습니다.

여기에는 LLM(대형 언어 모델) 개발 및 기계 학습에 중점을 둔 전담 팀을 구성하여 CUDA를 넘어서는 정교한 소프트웨어 스택을 만드는 것이 포함됩니다.

또한 Nvidia는 독점 네트워킹 기술과 수천 개의 GPU를 통합하여 AI 작업 실행을 간소화하는 슈퍼컴퓨터 판매에 도전했으며, Nvidia의 CEO인 Jensen Huang은 칩 제조를 넘어 완전한 데이터 센터 솔루션을 구축해야 할 필요성을 강조합니다.

현재 최고 등급 H100 GPU를 탑재한 서버의 가격은 대당 수억 원에 이릅니다. 보다 저렴한 대안인 A100 Tensor Core GPU도 상당한 가격에도 불구하고 수요가 높은데요.

워낙 인기가 많아서 재고 부족으로 인해 배송이 최대 12개월까지 걸릴 수 있다고 하네요. Microsoft, Google, Amazon과 같은 업계 거대 기업은 H100 및 A100 인프라를 활용하여 광범위한 GPU 서버 팜을 운영하기도 해요.

이런 전략적 움직임으로 Nvidia는 스타트업 Coreweave와 제휴하여 클라우드 서비스를 제공함으로써 기업이 AI 컴퓨팅 인프라를 완전히 구매하는 대신 임대할 수 있도록 했습니다.

선두 AI 기업들은 엔비디아의 최신 제품 채택을 서두르고 있으며, 엔비디아는 관련 인프라를 확장하고 지배력을 유지하고 있는데요.

하지만 AMD, 구글 등 경쟁사들은 경쟁 제품을 내놓으면서도 엔비디아의 기술력을 완벽하게 따라잡지 못했습니다.

결론적으로 엔비디아는 하드웨어와 소프트웨어 측면 모두에서 강력한 위치를 점하고 있어 AI 반도체 수요 증가에 대한 독점권을 유지할 태세입니다.

NVIDIA가 인상적인 NVIDIA DGX GH200을 공개하면서 COMPUTEX 2023에서 흥미로운 사실이 드러났습니다.

이번 발표는 복잡하고 까다로운 AI 워크로드를 대규모로 처리하기 위해 맞춤 제작된 GPU 가속 컴퓨팅 영역에서 중요한 진전을 의미합니다.

이 세그먼트에서는 NVIDIA DGX GH200 아키텍처의 주요 기능과 사용자 경험 간소화에서 NVIDIA Base Commands의 역할을 조명합니다.

지난 7년 동안 GPU의 통합 메모리 프로그래밍 모델은 복잡한 가속 컴퓨팅 애플리케이션 전반에 걸쳐 혁신을 촉진하는 데 중추적인 역할을 해왔습니다.

2016년 NVLink 기술이 도입되고 CUDA-6을 통한 통합 메모리 프로그래밍 모델이 결합되어 GPU 가속 워크로드에 대한 메모리 접근성을 증폭시키는 것을 목표로 했습니다.

DGX 시스템의 기반은 NVLink 속도로 액세스되는 상호 연결된 GPU 복합물을 중심으로 이루어지며, 이는 고속 네트워킹을 통해 더욱 확장되어 더욱 발전된 슈퍼컴퓨터를 구성할 수 있습니다.

NVIDIA는 NVIDIA Grace Hopper Superchip을 NVLink 스위치 시스템과 전략적으로 통합하여 과학자들이 점점 더 복잡해지는 AI 모델로 인한 과제를 극복할 수 있도록 지원합니다.

이러한 통합은 NVIDIA DGX GH200 프레임워크 내에서 GPU 동기화를 촉진하여 신속한 데이터 처리 및 분석을 가능하게 합니다.

독립형 시스템과 비교할 때 DGX GH200의 메모리 기능은 데이터 센터 규모 GPU와 유사하여 NVLink에 대한 100GB 메모리 액세스 장벽을 최초로 깨뜨린 제품입니다.

GPU 메모리 성능의 실질적인 개선은 특히 GPU 메모리 크기의 제약을 받는 AI 및 HPC 애플리케이션의 경우 상당한 발전을 의미합니다.

널리 사용되는 다수의 AI 및 HPC 워크로드는 이제 단일 NVIDIA DGX H100 내 GPU 메모리 전체에 편안하게 들어갈 수 있습니다.

이러한 특성으로 인해 DGX H100은 이러한 특정 작업에 대한 최적의 선택이 되어 매우 효율적인 교육 솔루션을 제공합니다.

반면, 테라바이트 규모의 내장 테이블이 장착된 딥 러닝 추천 모델(DLRM), 테라바이트 규모 데이터 세트에 걸친 그래프 신경망용 훈련 모델, 대규모 데이터 분석 작업과 같은 특정 워크로드는 다음과 같이 눈에 띄게 속도가 향상되었습니다.

DGX GH200 구현으로 4배에서 7배로 향상됩니다. 이러한 증거는 고급 AI 및 HPC 모델이 GPU 공유 메모리 프로그래밍을 위해 상당한 메모리 리소스를 필요로 하는 시나리오에서 DGX GH200의 우수성을 강조합니다.