100조 매개변수 AI 교육 모델

소스 노드 : 1642849
영상

Recommender AI 시스템은 오늘날 인터넷 서비스의 중요한 구성 요소입니다. Amazon 및 Netflix와 같은 수십억 달러 매출 비즈니스는 추천 서비스에 직접적으로 의존합니다.

AI 추천자는 커질수록 더 좋아집니다. 매우 최근에는 100억 개에서 XNUMX조 개까지의 매개변수가 포함된 여러 모델이 이전에 출시되었습니다. 모델 용량이 증가할 때마다 품질이 크게 향상되었습니다. XNUMX조 매개변수의 시대가 코앞에 다가왔습니다.

복잡하고 조밀한 휴식 신경망은 각 훈련 반복에서 100개 이상의 TFLOP로 점점 더 계산 집약적입니다. 따라서 이러한 교육 작업을 위해 이기종 리소스가 있는 클러스터를 관리하기 위한 정교한 메커니즘을 갖는 것이 중요합니다.

최근 ETH Zurich의 Kwai Seattle AI Lab과 DS3 Lab은 교육 알고리즘과 교육 시스템의 신중한 공동 설계를 통해 이 문제를 해결하기 위해 "Persia"라는 새로운 시스템을 제안하기 위해 협력했습니다. 알고리즘 수준에서 페르시아는 임베딩 레이어와 밀집 신경망 모듈을 다르게 처리하기 위해 하이브리드 훈련 알고리즘을 채택합니다. 임베딩 계층은 훈련 샘플의 처리량을 향상시키기 위해 비동기식으로 훈련되고 나머지 신경망은 통계적 효율성을 유지하기 위해 동기식으로 훈련됩니다. 시스템 수준에서 메모리 관리 및 통신 감소를 위한 광범위한 시스템 최적화가 구현되어 하이브리드 알고리즘의 잠재력을 최대한 발휘할 수 있습니다.

100억 개 매개변수 AI 모델을 위한 클라우드 리소스

Persia 100조 매개변수 AI 워크로드는 다음 이기종 리소스에서 실행됩니다.

컴퓨팅 집약적인 가상 머신의 3,000개 코어
총 8개의 A2 Nvidia GPU를 추가하는 64개의 A100 가상 머신
30개의 대용량 메모리 가상 머신(각각 12TB RAM 포함, 총 360TB)
Kubernetes를 사용한 오케스트레이션
네트워크 대기 시간을 최소화하려면 모든 리소스를 동일한 영역에서 동시에 시작해야 했습니다. GCP는 거의 통지 없이 필요한 용량을 제공할 수 있었습니다.

AI 교육에는 버스트 리소스가 필요합니다.

Google Kubernetes Engine(GKE)은 138개의 VM 및 소프트웨어 컨테이너 배포를 조정하는 데 활용되었습니다. 워크로드를 컨테이너화하면 교육을 이식하고 반복할 수도 있습니다.

결과 및 결론
Google Cloud 인프라의 지원으로 팀은 최대 100조 개의 매개변수까지 페르시아의 확장성을 시연했습니다. 하이브리드 분산 훈련 알고리즘은 이기종 클러스터의 효율적인 활용을 위해 정교한 시스템 완화를 도입하는 동시에 바닐라 SGD만큼 빠르게 수렴합니다. Google Cloud는 온프레미스 하드웨어의 한계를 극복하는 데 필수적이었고 대규모 분산 머신러닝 교육을 위한 최적의 컴퓨팅 환경을 입증했습니다.

Persia는 Google Cloud 설정 지침과 함께 github에서 오픈 소스 프로젝트로 출시되었습니다. 학계와 업계의 모든 사람이 100조 매개변수 규모의 딥 러닝 추천 모델을 쉽게 교육할 수 있다는 것을 알게 될 것입니다.

Brian Wang은 미래파 사상가이자 월 1만 명의 독자를 보유한 인기 있는 과학 블로거입니다. 그의 블로그 Nextbigfuture.com은 #1 과학 뉴스 블로그로 선정되었습니다. 우주, 로봇 공학, 인공 지능, 의학, 노화 방지 생명 공학 및 나노 기술을 포함한 많은 파괴적인 기술과 트렌드를 다룹니다.

최첨단 기술을 식별하는 것으로 알려진 그는 현재 스타트업의 공동 창립자이자 잠재력이 높은 초기 단계 기업을 위한 기금 마련자입니다. 그는 심층 기술 투자를 위한 할당 연구 책임자이자 Space Angels의 Angel Investor입니다.

기업에서 자주 연사로 활동하는 그는 TEDx 연사, Singularity University 연사 및 라디오 및 팟캐스트의 수많은 인터뷰 게스트였습니다. 그는 공개 연설과 약혼 자문에 개방적입니다.

타임 스탬프 :

더보기 다음 큰 선물