인텔, 중국용 저전력 Gaudi 3 칩 준비

인텔, 중국용 저전력 Gaudi 3 칩 준비

소스 노드 : 2543761

인텔은 Gaudi 3 AI 가속기의 중국 독점 모델 XNUMX개를 출시할 예정이며, 미국의 제재에 따라 실질적으로 무력화될 것입니다.

중동에서 판매가 승인된 두 가지 모델의 존재에 대해 자세히 설명되어 있습니다. Intel의 Gaudi 3 백서. HL-328 및 HL-388이라고 불리는 중국산 프로세서는 각각 OAM 및 PCIe 폼 팩터로 되어 있으며, 전자는 3월에, 후자는 XNUMX월에 출시되고 다른 PCIe 폼 팩터 Gaudi XNUMX도 함께 출시됩니다.

전반적으로 HL-328과 HL-388은 128TB/s 대역폭, 2MB 캐시, PCIe 3.7 x96 인터페이스 및 디코딩 표준을 갖춘 동일한 5.0GB HBM16e VRAM을 사용하여 다른 제품과 거의 동일해 보입니다.

유일한 차이점은 OAM 및 PCIe 카드 모델 모두에 대해 450와트인 열 설계 전력과 관련됩니다. 이는 다른 모델에 비해 상당히 감소된 수치입니다. 중국 외의 PCIe HL-338은 TDP가 600W이고 OAM 폼 팩터 HL-325L 및 HL-335는 900W를 전달합니다. China Gaudi 3 모델의 상대적으로 낮은 TDP는 아마도 수냉식 버전이 없는 이유일 것입니다.

백서에 명시적으로 명시되어 있지는 않지만, 규정을 준수하려면 변경이 거의 필요했습니다. 미국 정부의 수출 통제 미국 기업이 성능에 따라 중국에 칩을 수출하는 것을 금지하는 프로세서에 관한 것입니다. 

우리는 Intel이 Gaudi 3를 준수하기 위해 무엇을 했는지, 이러한 중국용으로 승인된 칩이 이러한 변경 사항을 통해 얼마나 빠르게 작동하는지 알 수 없지만 몇 가지 단서가 있습니다. HL-328 및 HL-388은 메모리 및 캐시 구성이 변경되지 않았기 때문에 다른 Gaudi 3 변형과 마찬가지로 여전히 두 개의 다이를 사용합니다. 하나 대신 두 개의 다이를 사용하면 성능 밀도를 줄이는 데 도움이 되므로 칩이 총 처리 능력(TPP)인 4,800의 더 높은 수출 한도에 도달할 수 있습니다.

4,800 TPP 제한이 의미하는 것은 어떤 칩도 150 TFLOPS 이상의 16비트 성능을 가질 수 없으며 Gaudi 3는 BF1,835에서 최대 16 TFLOPS를 수행할 수 있으므로 Intel은 성능을 심각하게 줄여야 한다는 것입니다. 이는 코어 수와 클럭 속도를 크게 줄이거나 기타 성능을 제한하는 방법을 통해 수행되어야 합니다.

우리는 Intel에 중국 독점 Gaudi 3 모델에 대한 설명을 요청했지만 아직 답변을 듣지 못했습니다. Intel이 정보를 공개하면 업데이트하겠습니다.

우리는 아마도 HL-328과 HL-388이 다음과 유사한 성능을 발휘할 것으로 예상할 수 있습니다. 엔비디아의 H20, 중국에서 판매 승인을 받은 실리콘 타이탄의 가장 빠른 GPU입니다. FB148 및 FP16 성능의 16TFLOPS는 150TFLOPS 제한 바로 아래입니다.

원시 코어 성능은 H20과 Gaudi 3의 중국 모델 간에 거의 동일할 것이기 때문에 주요 차이점은 Intel이 더 많은 용량을 갖고 있지만 대역폭은 약간 더 적은 메모리와 항상 판매 포인트였던 소프트웨어로 귀결됩니다. 엔비디아 칩용. ®

타임 스탬프 :

더보기 등록