Amazon, Habana의 AI 가속기 칩으로 구동되는 AWS 인스턴스 출시

플라톤에 의해 재발행

팔로워 : 0

오늘 Amazon의 클라우드 서비스 사업부인 Amazon Web Services(AWS) 발표 Elastic Compute Cloud(EC2) DL1 인스턴스의 일반 가용성. 새로운 인스턴스 유형은 일반적으로 특별히 새롭지 않지만, DL1(특히 DL1.24xlarge)은 머신 러닝 모델 교육을 위해 설계된 AWS의 첫 번째 유형이라고 Amazon은 말합니다. 이 유형은 Intel 소유 Habana Labs의 Gaudi 액셀러레이터로 구동됩니다.

Seagate, Fractal, Indel, Riskfuel 및 Leidos를 포함한 개발자는 오늘 출시 전에 AWS에서 실행되는 Gaudi에 대한 조기 액세스 권한을 받았습니다. Habana는 블로그에서 “GPU를 기반으로 하지 않는 AWS의 첫 번째 AI 교육 인스턴스입니다. 게시. “이 새로운 교육 인스턴스 클래스를 만드는 주된 동기는 2020년 re:Invent에서 Andy Jassy가 제시한 것입니다.

저렴한 모델 교육

기업이 AI 모델을 조직에 배포하는 것이 비즈니스에 미치는 영향을 인식함에 따라 기계 학습이 주류가 되고 있습니다. 기계 학습을 사용하는 것은 일반적으로 데이터 세트에서 학습하여 패턴을 인식하도록 모델을 교육한 다음 예측을 위해 새 데이터에 모델을 적용하는 것으로 시작합니다. 모델의 예측 정확도를 유지하려면 모델을 자주 재교육해야 하므로 상당한 리소스가 필요하므로 비용이 증가합니다. 구글 자회사 딥마인드는 35만 달러를 지출한 것으로 추산된다. 훈련 중국 보드게임 바둑을 배울 수 있는 시스템.

DL1 사용 — Google에 대한 AWS의 첫 번째 답변 텐서 처리 장치(TPU), Google Cloud Platform에서 실행되는 맞춤형 가속기 칩 세트 — Amazon 및 Habana는 AWS 고객이 이제 최신 GPU 기반 EC40 인스턴스와 비교할 때 더 빠르고 최대 2% 더 나은 가격 대비 성능으로 모델을 교육할 수 있다고 주장합니다. DL1 인스턴스는 256GB의 고대역폭 메모리, 768GB의 시스템 메모리, 400세대 Amazon 맞춤형 Intel Xeon Scalable(Cascade Lake) 프로세서, 4Gbps의 네트워킹 처리량, 최대 XNUMXTB의 로컬 NVMe 스토리지.

그림 1: Habana의 새로운 훈련 칩은 상당한 규모의 고성능 AI 훈련을 위해 설계되었습니다.

위: Habana의 새로운 훈련 칩은 상당한 규모의 고성능 AI 훈련을 위해 설계되었습니다.

이미지 크레디트: Habana Labs

Gaudi는 업계 최초로 AI 칩에 RDMA 및 RoCE(Remote Direct Memory Access over Ethernet)를 온다이로 구현한 것을 특징으로 합니다. 이것은 10개의 100Gbps 또는 20개의 50Gbps 통신 링크를 제공하여 최대 "수천"의 개별 가속기 카드까지 확장할 수 있습니다. GPU 또는 CPU 기반 인스턴스에서 오는 경우 고객은 아키텍처 차이로 인해 Habana의 SynapseAI SDK를 사용하여 기존 알고리즘을 마이그레이션해야 합니다. Habana는 GitHub 리포지토리에서 이미지 분류, 개체 감지, 자연어 처리 및 추천 시스템을 위한 사전 훈련된 모델을 대안으로 제공합니다.

“머신 러닝의 사용이 급증했습니다. 그러나 기계 학습 모델 교육의 과제 중 하나는 계산 집약적이며 고객이 모델을 수정하고 재교육함에 따라 비용이 많이 들 수 있다는 것입니다.”라고 AWS EC2 부사장 David Brown은 성명에서 말했습니다. “AWS는 이미 모든 기계 학습 프로젝트 또는 애플리케이션을 위한 가장 광범위한 강력한 컴퓨팅 선택권을 보유하고 있습니다. Gaudi 가속기를 특징으로 하는 DL1 인스턴스를 추가하면 현재까지 클라우드에서 GPU 기반 인스턴스에 대한 가장 비용 효율적인 대안을 제공합니다. 가격과 성능의 최적 조합을 통해 고객은 교육 비용을 줄이고 더 많은 모델을 교육하며 더 빠르게 혁신할 수 있습니다.”

경쟁사 규모 조정

AI 교육 하드웨어에 대한 업계 벤치마크인 MLPerf Training의 2021년 62.55월 결과에서 164.37-가우디 시스템은 인기 있는 컴퓨터 비전 모델 ResNet의 변형을 교육하는 데 XNUMX분, 자연어 모델 BERT를 교육하는 데 XNUMX초가 걸렸습니다. 직접 비교 최신 세대 4,096개의 4세대 TPU(TPUv1.82)는 약 256분 안에 ResNet 모델을 훈련시킬 수 있고 4개의 TPUv1.82 칩은 XNUMX분 안에 BERT 모델을 훈련시킬 수 있다고 MLPerf Training은 보여줍니다.

표면적인 성능 이점 외에도 DL1은 비용 절감을 제공하거나 Amazon 및 Habana를 주장합니다. 4개의 GPU 기반 인스턴스인 p24d.100xlarge(Nvidia A40 3GB GPU 24개 포함), p100dn.32xlarge(Nvidia V3.16 100GB GPU 16개) 및 p1xlarge(V13.11 24.48GB GPU 3개)와 비교하여 DL32.77은 온디맨드 시간당 ResNet 모델을 교육할 때 $4의 비율. 이는 pXNUMX의 경우 시간당 $XNUMX, pXNUMXd의 경우 시간당 $XNUMX과 비교됩니다.

100개의 A40 18,251GB GPU는 12,987개의 Gaudi 시스템(XNUMX)보다 훈련 중에 초당 더 많은 이미지(XNUMX)를 처리할 수 있습니다. 그러나 Habana는 원시 처리량보다 칩의 효율성을 강조하고 있습니다.

“다양한 EC2 인스턴스에 대한 Habana의 테스트와 Amazon에서 게시한 가격을 기반으로 p4d 인스턴스와 비교하여 DL1이 ResNet-44 교육 비용을 50% 절감합니다. p3dn 최종 사용자의 경우 ResNet-50 교육 비용을 69% 절감할 수 있습니다.”라고 Habana는 말했습니다. “Gaudi는 7나노미터 A100 GPU만큼 많은 트랜지스터를 포함하지 않지만, 처음부터 효율성을 위해 설계된 Gaudi의 아키텍처는 리소스 활용도를 높이고 GPU 아키텍처보다 적은 시스템 구성 요소로 구성됩니다. 결과적으로 시스템 비용이 낮아지면 궁극적으로 최종 사용자에게 더 낮은 가격을 책정할 수 있습니다.”

향후 개발

인텔 획득한 2년 2019월 약 XNUMX억 달러에 Habana를 인수하면서 Nervana 부서에서 개발한 AI 가속기 하드웨어를 무시하고 칩 거인의 슬기로운 움직임으로 보였습니다. 실제로 지난해 re:Invent 컨퍼런스에서 Jassy는 AWS가 시장 출시 시간을 단축하기 위해 Habana의 칩에 투자했다고 밝혔습니다.

EETimes 기사로 노트, 클라우드 제공업체는 AI 가속을 위한 새로운 컴퓨팅 아키텍처를 갖춘 타사 칩에 투자할 때 지금까지 신중했습니다. 예를 들어 Baidu는 Kunlun을 제공하고 Alibaba는 Hanguang을 개발했습니다. 스타트업의 칩 Graphcore 및 Groq는 각각 Microsoft의 Azure 클라우드 및 Nimbix에서 사용할 수 있지만 "기계 학습의 경계를 넓히는" 고객에게 우선 순위가 지정됩니다.

DL1 인스턴스는 Amazon의 AWS 트레이닝 올해 AWS 고객에게 제공될 맞춤형 가속기인 하드웨어. Habana는 Gaudi 아키텍처를 2나노미터에서 16나노미터로 만드는 차세대 Gaudi7 AI를 개발 중이라고 밝혔습니다.

DL1 인스턴스는 온디맨드 인스턴스, 할인 플랜, 예약 인스턴스 또는 스팟 인스턴스로 구매할 수 있습니다. 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 사용할 수 있습니다.

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.