인더뉴스 이종현 기자ㅣ엔비디아가 GTC 2024에서 공개한 자사의 블랙웰(Blackwell) GPU 플랫폼을 아마존닷컴의 자회사인 아마존웹서비스(이하 AWS)에 제공한다고 21일 발표했습니다.
AWS는 5세대 엔비디아 NV링크로 상호 연결된 72개의 블랙웰 GPU와 36개의 그레이스 CPU로 구성된 GB200 NVL72를 갖춘 엔비디아 블랙웰 플랫폼을 제공할 예정입니다. 또한, 대규모 생성형 AI 훈련과 추론을 가속화하는 EC2 울트라클러스터에 배치된 새로운 B100 GPU를 탑재한 EC2 인스턴스도 제공할 계획입니다.
엔비디아와 AWS의 협력은 엔비디아 NIM 추론 마이크로서비스와 아마존 세이지메이커(SageMaker)를 통합함으로써 고성능, 저비용의 생성형 AI를 위한 추론 서비스를 제공합니다. 사용자는 이 서비스를 사용해 미리 컴파일되고 엔비디아 GPU에서 실행되도록 최적화된 기능모듈을 세이지메이커에 신속하게 배포해 생성형AI 애플리케이션의 출시 기간을 단축할 수 있습니다.
AWS 리인벤트(re:Invent) 2023에서 발표된 프로젝트 세이바(Project Ceiba)는 세계에서 가장 빠른 AI 슈퍼컴퓨터를 구축하기 위해 엔비디아와 AWS가 협력하는 프로젝트입니다. 20736개의 B200 GPU를 사용하는 해당 프로젝트의 슈퍼컴퓨터는 새로운 엔비디아 GB200 NVL72시스템을 기반으로 구축되며 엔비디아의 자체 연구 개발에 사용됩니다.
세이바는 4세대 EFA 네트워킹을 통해 확장되고 슈퍼칩당 최대 800Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공해 414 엑사플롭의 대규모 AI를 처리할 수 있습니다. 엔비디아의 이전 세대 GPU 아키텍처인 호퍼(Hopper) 아키텍처를 기반으로 구축하려고 했던 초기 계획에 비해 6배나 향상된 성능을 제공하게 됩니다.
보안 기능 역시 확보될 예정입니다. AWS AI 인프라와 서비스에는 고객이 데이터를 제어하고 제3자 모델 제공업체와 공유되지 않게 만드는 보안 기능이 마련돼 있습니다. AWS 니트로 시스템과 엔비디아 GB200의 결합은 권한이 없는 개인이 모델 가중치에 액세스하는 것을 방지함으로써 AI 보안을 한층 더 강화합니다.
젠슨 황(Jensen Huang) 엔비디아 CEO는 "AI는 전례 없는 속도로 혁신을 주도하며 산업 전반에 걸쳐 새로운 애플리케이션, 비즈니스 모델 및 혁신을 이끌고 있다. AWS와의 협력을 통해 새로운 세대의 AI 기능을 가속화하고 고객에게 전례 없는 컴퓨팅 성능을 제공해 가능성의 범위를 넓혀가고 있다"고 말했습니다.