ⓒ Intel
새로운 경쟁이 시작됐다. 지난주 인텔이 아크(Arc) GPU를 발표하면서 오랫동안 예고했던 일반 사용자용 외장 그래픽 카드 시장 진입을 선포한 것이다.
‘칩질라(Chipzilla)’라고 불리는 거물 인텔이 새로운 Xe HPG(High-performance gaming) GPU 아키텍처로 본격 경쟁에 뛰어든 지금 엔비디아와 AMD가 긴장할 만도 하다.
인텔은 아크를 발표하면서 이례적인 (하지만 전략적으로 스마트한) 접근방식을 취하며 저렴한 가격의 휴대용 노트북을 위한 아크 3 그래픽 카드를 출시했다.
엔비디아와 AMD가 확고한 위치를 점한 데스크톱 게임 프레임률을 두고 치고 받는 것보다 노트북과 소프트웨어 지원에서 상당한 강점을 우선 지원하는 것이다.
아크 3 노트북의 GPU 공개와 인텔의 뛰어난 기능에 대해서는 앞선 기사에서 다뤘는데, 새로운 노트북 PC에 대한 일반적인 이해를 돕는 기사다.
인텔 아크 GPU와 인텔 코어 프로세서를 함께 사용할 때 놀라운 효과를 가져오는 딥 링크를 비롯하여 매력적인 요소가 상당히 많다.
하지만 이 기사의 요점은 다르다. 신제품 발표와 함께 인텔 펠로우 톰 피터슨은 아크 ‘연금술사’ 그래픽 카드의 기반이 되는 Xe HPG 아키텍처의 전반적인 개요를 제공했다. 인텔 그래픽 카드에 힘을 실어주는 실제 혁신 기술을 상세히 살펴본다.
이 기사에서는 엔비디아 암페어, AMD의 RDNA 2 아키텍처에서처럼 인텔 아크의 Xe HPG 칩 내부를 기술적으로 간단히 설명할 것이다.
엔비디아와 AMD가 설계에 독자적인 기술과 용어를 사용하는 것과 매우 유사하게 인텔의 아크 칩은 (설명이 필요한 클럭 속도의 새로운 관점을 포함한) 약간의 자체적인 개념에 의존한다.
그래서 아크를 경쟁 GPU 아키텍처와 직접 비교하기는 쉽지 않다. 인텔은 ROP나 TMU 등의 일반적인 용어조차 사용하지 않는다.
다만, 이 작업을 마치면, Xe HPG의 동력을 확실히 이해하게 될 것이다. 자, 시작해보자.
Xe HPG와의 첫 인사
인텔의 경우 Xe HPG ‘렌더 슬라이스’는 모든 아크 GPU의 중추다. 인텔 노트북 및 데스크톱 아크 제품은 다양한 시장 요구에 따라 성능을 조절할 수 있지만, 그 중심에는 렌더 슬라이스가 있고 여기에는 레이 트레이스 유닛, 래스터라이저, 기하학 블록 및 아크용 기본 구성 블록, Xe코어 그 자체가 모두 포함된다. 노트북 형태의 아크 A770M GPU로 대표되는 Xe XPG는 아크 모바일 GPU에서 최대 8개까지 렌더 슬라이스를 확장할 수 있다.
각 렌더 슬라이스에는 4개의 Xe 코어 및 4개의 레이 트레이스 유닛과 최신 GPU 실행에 필요한 기타 모든 비트가 포함되어 있다. 이러한 렌더 슬라이스는 다이렉트X 12 얼티밋을 완전 지원하며, 이는 인텔 아크 GPU가 레이 트레이스, VRS(Variable Rate Shading), 메쉬 쉐이딩(Mesh Shading) 및 표준과 관련된 기타 모든 기능을 처리할 수 있다는 것을 의미한다.
Xe 코어 자체를 더 자세히 살펴보자. 각 Xe 코어(다시 말하지만 렌더 슬라이스당 4개가 있음)는 3개의 키 비트로 구성된다. 즉, 더욱 전통적인 래스터화 작업을 처리하는 16개의 256비트 ‘XVE’ 벡터 엔진, 머신러닝 작업을 처리하는 16개의 1024비트 ‘XMX’ 매트릭스 엔진(엔비디아의 경쟁 RTX GPU의 텐서 코어 등), 192KB의 공유 LSL/1 캐시다. 이 캐시는 컴퓨팅 워크로드 중 작업, 또는 게임 중 쉐이더 및 텍스처 유지에 사용된다.
PC 게임 분야의 대기업은 레이 트레이싱이 그래픽의 미래라며 기대를 걸고 있지만, 현재로서는 기존 렌더링 방식이 여전히 지배적이다. 각 Xe 벡터 엔진에는 기존의 쉐이딩 작업을 처리하는 전용 부동소수점(FP) 실행 포트와 정수 기반 작업을 동시에 수행할 수 있는 공유 INT/EM 포트가 있다.
엔비디아는 정수 작업이 FP32 파이프라인을 막는 것을 방지하기 위해 RTX 20 시리즈 튜링 아키텍처와 함께 동시 FP/INT 파이프라인을 도입했다. 그 이후로 FP/INT 파이프라인은 표준이 되었고 PCWorld는 2018년 기사에서 “엔비디아가 실제 게임의 작동 방식을 조사했을 때 100개의 부동소수점 명령이 실행될 때마다 평균 36개에서 많게는 50개의 부동소수점 명령도 처리되어 작업이 방해되는 것을 발견했다. 새로운 정수 파이프라인은 이러한 추가 명령을 FP32 파이프라인과 분리하여 동시에 처리한다. 두 작업을 동시에 실행하면 속도가 크게 향상된다”라고 설명했다.
인텔의 전용 ‘XMX’ 매트릭스 엔진은 각 Xe 코어의 벡터 엔진에 연결된다. 엔비디아의 RTX 텐서 코어와 거의 유사하며 머신러닝 작업을 대폭 고속화할 수 있도록 설계되었다. 엔비디아가 자랑하는 DLSS 업샘플링에 대항하는 경쟁작인 인텔의 XeSS의 잠재력과 인텔의 새로운 아크 컨트롤 명령 센터에 탑재된 하이퍼 컴퓨팅이나 가상 카메라 기능 등의 특수한 기능을 실현한다.
원문보기:
(XeSS를 사용한 게임이나 하이퍼 컴퓨팅을 지원하는 앱 등)호환가능한 소프트웨어를 이용하면 XMX 코어의 4개의 딥 시스톨릭 어레이(deep systolic array)는 INT8 추론의 경우 클럭당 최대 256개의 곱셈 누적(MAC) 작업을 계산할 수 있다. 기존 GPU가 지원하는 16연산(ops/clock)과 DP4a 하드웨어가 내장된 최신 GPU가 제공하는 64연산(ops/clock)에 비해 대폭 증가한 수치다.
인텔의 XeSS는 XMX 코어가 없는 경쟁업체 엔비디아와 AMD 그래픽 카드 상에서 실행되는 폴백 모드를 지원하며 대신 DP4a 하드웨어로 기본 설정된다. 이 그림은 XMX 하드웨어가 내장된 아크 GPU에서 XeSS가 훨씬 더 빠르게 실행될 것으로 인텔이 예상하는 이유를 잘 보여준다.
각 Xe 코어에는 총 16개의 벡터 및 매트릭스 엔진이 탑재되어 있으며, 각각의 쌍이 록스텝으로 실행되어 FP, INT 및 XMX 작업을 동시에 실행할 수 있다. 아크 GPU는 많은 부하를 버틸 수 있다.
Xe HPG 미디어 엔진 및 AV1 인코딩
인텔은 항상 번개처럼 빠른 퀵싱크 테크놀로지를 앞세운 미디어 엔진을 자랑해 왔으며, Xe XPG의 미디어 엔진도 다르지 않다. 다양한 8K HDR 인코딩 및 디코딩 지원, HEVC, VP9 등 그래픽 칩에서 기대할 수 있는 최신 기능을 모두 갖췄고, 다른 칩(CPU 또는 GPU)에서는 제공하지 않는 하드웨어 가속 AV1 인코딩도 포함하고 있다.
업계 대기업 컨소시엄이 개발한 고효율 차세대 비디오 표준은 빠르게 자리잡아 가고 있으며, 최신 데스크톱 GPU는 AV1 디코딩을 지원하므로 이제 시스템에 무리를 주지 않고도 8K 비디오를 시청할 수 있다. 그러나 지금까지는 소프트웨어만으로 AV1 비디오를 제작할 필요가 있었다. 인텔은 아크가 지원하는 하드웨어 가속 AV1 제작이 소프트웨어 인코딩보다 50배 빠르며, 다른 인코더와 동일한 비트율로 훨씬 선명한 스트리밍 비주얼을 제공할 수 있다고 말한다.
인텔의 딥 링크 제품군 중 하나로 모든 인텔 노트북에서 제공되는 하이퍼 인코딩 기능과 조합하면 아크 기반의 시스템은 영상 콘텐츠 제작자에게 매우 매력적이다(물론 게임 성능이 충분하다면 말이다). 하이퍼 인코딩은 CPU와 GPU 중 어느 하나가 아닌 둘 모두에서 미디어 엔진을 활용한다.
Xe HPG 디스플레이 엔진
Xe HPG 디스플레이 엔진은 아크 GPU 스택 전체에서 일관성을 유지한다. 모든 아크 그래픽 카드가 동일한 비디오 출력 기능을 제공한다는 의미다(단, 정확한 포트 구성은 모델에 따라 다를 것이다). 실제로 2개의 8K 스크린에서 게임을 시도한다면 프레임률을 기대해서는 안 된다. 그러나 생산성 작업에 모든 픽셀을 사용하고 싶은 경우 아크가 이 기능을 지원한다는 것을 알고 있어야 한다.
진짜 아크 A-시리즈 노트북 GPU
잠시 시간을 내어 기술 이론을 현실에 적용해 보자. 인텔은 다수의 Xe 코어와 렌더링 슬라이스를 모바일 시장 전용 아크 ‘연금술사’ GPU(하이엔드 ACM-G10 및 좀더 일반적인 ACM-G11)로 조합해 지난주 출시되는 아크 3 노트북에 결합한다.
이 GPU는 시장의 다양한 요구에 맞추어 세분화할 수 있다. 노트북용 아크 그래픽 1세대는 다음과 같이 선보일 예정이다. 아크 3 노트북은 지난주 출시됐고, 아크 5 및 7 노트북은 올 여름 초쯤 출시될 것으로 보인다.
Xe HPG 그래픽 클럭 스피드
노트북의 GPU 사양 차트에서 특히 초저클럭 속도라는 개념이 눈에 띈다. 엔비디아 GPU가 2GHz를 지원하고 일부 AMD GPU가 확실히 2.5GHz를 지원하는 시대에 인텔의 아크가 최고 1,650MHz에서 최저 900MHz를 지원한다니 매우 놀랍다. 그러나 경쟁 그래픽 카드 간의 클럭 속도는 보이는 만큼 명확하지가 않다.
AMD의 라데온 GPU용 ‘게임클럭’은 앞서 설명한 바와 같이 엔비디아의 ‘부스트 클럭’과 다른 개념이다. 인텔은 아크 GPU에 ‘그래픽 클럭’이라고 불리는 또 다른 지표를 사용했다. 피터슨은 인텔의 그래픽 클럭을 특정 GPU가 의도한 일반적인 워크로드(예컨대, He XPG용 게임이나 워크스테이션 카드용 컴퓨팅 작업 등)의 평균 클럭 속도라고 정의했다. 노트북 GPU 차트에서 각각을 달리 정의하는 TDP가 확인된다. 즉, 그래픽 클럭은 이용 가능한 최소의 TDP를 기반으로 한다. 달리 말해, 인텔의 그래픽 클럭은 기본적으로 아크 GPU에서 거의 최악의 시나리오나 마찬가지다.
즉, 그래픽 코어는, 얼마나 부하가 많은지에 따라 다른 속도로 실행할 수 있다. 예를 들어 2D 레트로 게임에서는 훨씬 속도가 빨라지고, Xe 코어와 렌더 슬라이스의 모든 부분을 사용해야 하는 복잡한 최신 게임에서는 속도가 훨씬 느려질 것이다. 또, 와트 양이 능력에도 영향을 미칠 수 있다. 엔비디아 모바일 지포스 제품에서 보았듯이 GPU에 더 많은 연료를 주입하면 하위 계층의 GPU가 표면상으로는 더 강력한 형제 제품의 저와트 버전을 능가하게 된다.
또한 클럭 속도가 전부가 아니라는 점도 주목할 필요가 있다. 같은 회사의 아키텍처라면 보통 속도가 빠를수록 좋다. 2GHz 지포스 GPU가 1.5GHz보다 빠르다. 그러나 AMD의 데스크톱 라데온 RX 6500 XT는 2.8GHz 클럭을 지원한다고 하면서도 동종 제품에 뒤처진다. AMD의 로버트 홀록이 최근 풀 너드 팟캐스트에서 설명한 바와 같이 원시 클럭 속도 향상만이 성능을 향상시키는 유일한 방법은 결코 아니다. AMD 라이젠 7 5800X3D 프로세서는 실제로 클럭 속도를 떨어뜨리고 칩 위에 거대한 캐시를 넣음으로써 게임 성능을 크게 향상했다.
즉, 속도 비교는 단순한 숫자 이상으로 복잡하다. 인텔 아크 GPU의 클럭 속도를 자세히 조사하려면 리뷰어가 노트북과 데스크톱 그래픽 카드를 입수해 독립 테스트를 수행할 때까지 기다려야 한다.
남은 것은 독립 리뷰뿐
인텔의 Xe HPG 아키텍처 투어는 이것으로 거의 끝났다. 인텔은 지난주까지 모바일 중심의 공개를 위해 매우 높은 수준의 보안을 유지하고 있었지만, 아크 5 및 7 노트북과 아크 데스크톱 그래픽 카드가 출시될 즈음에는 더욱 상세한 내용이 공개될 것으로 예상한다.
이제 남은 일은 리뷰를 기다리는 것뿐이다.
<출처 : CIO KOREA>