야심 찬 AI 계획을 보유한 CIO라면 최근 등장한 엔비디아의 새 제품군이 반가울 수 있다. 엔비디아의 블랙웰(Blackwell) 하드웨어 아키텍처와 여러 인기 AI 모델에 대한 추론 최적화 소프트웨어 패키지가 그것이다.
GPU 강자인 엔비디아가 최근 몇 가지 주목할 만한 발표를 단행했다. 엔비디아는 더 많은 조직에서 이 기술을 사용할 수 있도록 하는 동시에 이 기술의 기능을 발전시키는 데 중점을 두고 있다.
3월 중순에 열린 GPU 기술 컨퍼런스에서 엔비디아는 강력한 새 GPU인 블랙웰과 수십 개의 인기 AI 모델에 대해 추론을 최적화하는 소프트웨어 패키지인 ‘엔비디아 인피어런스 마이크로서비스’(NIM)를 선보였다.
엔비디아 창립자 겸 CEO인 젠슨 황은 2시간에 걸친 기조연설에서 새로운 휴머노이드 로봇 프로젝트를 비롯한 여러 다른 발표도 진행했다.
블랙웰과 NIM의 등장의 의미는 기업과 CIO에 따라 다르다. 간단한 AI 챗봇이나 줌 회의 요약 정도의 기능을 AI를 배포하는 CIO에게는 획기적이지 않을 수 있다. 이러한 소규모 AI 워크로드는 저전력 GPU와 CPU를 통해서도 실행할 수 있기 때문이다.
하지만 특정 용도에 맞게 AI를 학습시키거나 대규모 AI 프로젝트를 실행하는 데 필요한 컴퓨팅 성능을 찾는 CIO는 블랙웰 프로젝트를 통해 큰 가치를 확보할 수 있다.
포레스터 리서치의 엔터프라이즈 아키텍처 수석 애널리스트인 앨빈 응우옌은 블랙웰 사양이 현실에서도 구현된다면, 이 새로운 GPU는 경쟁사가 따라올 수 없는 AI 성능을 제공한다고 평가했다. 그는 "현재 엔비디아는 칩부터 데이터센터에 이르는 포괄적인 솔루션을 갖추고 있다"라고 말했다.
탁월한 AI 성능 AI에 대한 열망을 가진 CIO에게 블랙웰의 등장은 슈퍼 칩이나 전용 서버를 실험할 수 있다는 신호가 될 것이라고 응우옌은 덧붙였다. 블랙웰은 기업이 AI 슈퍼컴퓨터의 다른 이름인 이른바 슈퍼팟을 배포할 수 있게 해준다는 것이다. 또한 자금력이 있는 기업은 블랙웰을 통해 통합 컴퓨팅 리소스, 스토리지, 네트워킹, 워크스테이션, 소프트웨어 및 기타 부품으로 구성된 AI 팩토리를 구축할 수 있게 된다.
IDC의 반도체 연구 부사장인 셰인 라우도 블랙웰의 비즈니스 사례는 분명하다고 평가했다. AI 모델이 커질수록 훈련된 AI가 새로운 데이터에서 결론을 도출하는 과정인 학습 및 추론에 더 많은 성능이 요구된다는 것이다.
그는 “2023년에 훈련된 LLM AI를 배포한 후 CIO들은 무엇이 효과가 있고 무엇이 효과가 없는지 알게 될 것이다. 이후 재훈련과 재배치 주기를 개시하려 할 것이며 이에 따라 블랙웰의 필요성은 더욱 커질 것"이라고 말했다.
라우에 따르면 조직에서 자체적으로 LLM을 훈련하지 않는 경우에도 블랙웰의 AI 사례는 업종와 내부 워크플로우에 따라 크게 달라질 수 있다. "애플리케이션 특화적 워크로드를 다수 보유한 기업이라면, 또 투입할 수 있는 리소스가 적은 기업이라면, AI 솔루션 스택과 AI 모델 표준화에 더 오랜 시간이 걸리곤 한다"라고 그는 말했다.
여러 AI 모델에 대한 추론을 최적화하는 엔비디아의 소프트웨어 패키지인 NIM도 시장에서 주목을 받을 것이라고 라우는 예상했다. 많은 기업이 목적에 맞게 AI를 훈련할 역량을 갖추지 못했기 때문이다.
라우는 "모든 사람이 AI 모델을 대규모로 학습하고 배포할 수 있는 리소스를 갖추고 있는 것은 아니며, 특정 워크로드에 맞는 모델만 필요하다. 일반 모델들을 구매하려는 조직은 많지 않다. 따라서 IT 담당자가 구매하여 약간의 조정만 하면 바로 사용할 수 있도록 기성품으로 만들어진 사전 학습된 모델과 런타임 모델이 필요하다. 그래야 기업과 인터넷 전반에서 AI를 확장할 수 있다”라고 말했다.
법률 웹사이트인 LCC 어토니의 CTO인 하비에르 무니즈는 블랙웰 GPU는 AI 외에 다른 컴퓨팅 요구에도 유용할 수 있다고 평가했다. 그는 "데이터 분석, 3D 모델링, 암호화, 고급 웹 렌더링 등과 같이 처리 속도와 성능이 중요한 분야에 블랙웰과 같은 GPU가 요긴할 수 있다. 처리 및 분석해야 하는 데이터 세트가 방대한 경우가 특히 그렇다. 블랙웰 GPU는 이러한 연산에 소요되는 시간을 크게 단축할 수 있다"라고 말했다.
AI는 확장성? 엔비디아의 황은 기조연설에서 AI 및 기타 목적에 대한 GPU 기반 가속 컴퓨팅의 이점을 강조했다. 범용 컴퓨팅이 "한계에 다다랐다"라고 언급하기도 했다. 그러나 엔비디아는 AI의 하드웨어 측면에서 현재 나타나고 있는 몇 가지 과제에 대해 이번 컨퍼런스에서 언급하지 않았다.
GPU 시장은 암호화폐 채굴자 및 AI 프로젝트의 높은 수요를 비롯한 여러 요인으로 인해 여전히 공급 부족 상태다. 엔비디아 GPU와 잠재적으로 경쟁할 수 있는 CPU 기반 AI 스케일링 플랫폼을 제공하는 튜멘타의 CEO인 수부타이 아마드는 하이엔드 AI GPU 시장에서 엔비디아의 독보적인 지위는 AI 프로젝트에 집중하는 기업들에게 우려 요소일 수 있다고 지적했다.
아마드는 "엔비디아의 지배력과 GPU 및 GPU 부품의 부족으로 인해 CIO들은 대안을 찾아야 하는 형식이다. AI 이니셔티브에서 단일 소싱에 의존해서는 안 된다”라고 말했다.
황은 기조연설에서 컴퓨팅 파워를 확장하여 컴퓨팅 비용을 낮추면서도 지속 가능성을 확보해야 할 필요성에 대해 이야기했다. 하지만 AI에는 여전히 확장 문제가 있다고 포레스터의 응우옌은 지적했다. 지금까지는 기업이 사용자나 워크로드를 추가함에 따라 AI 비용과 전력 요구량은 지속적으로 늘어났다.
기업들이 AI 워크로드에 더 많은 GPU를 투입할 수 있지만, 장기적으로 볼 때 이는 실행 가능하지 않다고 응우옌은 말했다.
그는 "처음 100명의 사용자를 확보한 후 100명을 더 추가하면 비용이 더 저렴해지고 요구 사항이 더 작아질까? 대답은 ‘아직은 아니’라는 것이다"라고 말했다.
엔비디아와 다른 하드웨어 공급업체는 제조 역량이 증가하고 있음을 강조하곤 한다. 그러나 현재로서는 하이퍼스케일러만이 AI 팩토리와 최고 수준의 LLM 성능을 확보할 수 있는 현실이다. 응우예은 "기업에게 있어 장기적인 확장성 문제가 여전히 남아 있다"라고 말했다.