100 nghìn tỷ thông số mô hình đào tạo AI

Nút nguồn: 1642849
hình ảnh

Hệ thống đề xuất AI là một thành phần quan trọng của các dịch vụ Internet ngày nay: các doanh nghiệp có doanh thu hàng tỷ đô la như Amazon và Netflix được thúc đẩy trực tiếp bởi các dịch vụ đề xuất.

Những người đề xuất AI trở nên tốt hơn khi chúng lớn hơn. Một số mô hình đã được phát hành trước đây với tỷ thông số lên đến thậm chí nghìn tỷ rất gần đây. Mỗi bước nhảy vọt về công suất mô hình đã mang lại sự cải thiện đáng kể về chất lượng. Kỷ nguyên của 100 nghìn tỷ thông số đang đến gần.

Mạng nơron nghỉ ngơi dày đặc, phức tạp ngày càng đòi hỏi nhiều tính toán hơn với hơn 100 TFLOP trong mỗi lần lặp lại đào tạo. Vì vậy, điều quan trọng là phải có một số cơ chế phức tạp để quản lý một cụm với các nguồn lực không đồng nhất cho các nhiệm vụ đào tạo như vậy.

Gần đây, Kwai Seattle AI Lab và DS3 Lab từ ETH Zurich đã hợp tác đề xuất một hệ thống mới có tên “Persia” để giải quyết vấn đề này thông qua việc đồng thiết kế cẩn thận cả thuật toán đào tạo và hệ thống đào tạo. Ở cấp độ thuật toán, Persia áp dụng một thuật toán đào tạo kết hợp để xử lý lớp nhúng và các mô-đun mạng nơ-ron dày đặc một cách khác nhau. Lớp nhúng được huấn luyện không đồng bộ để cải thiện thông lượng của các mẫu huấn luyện, trong khi mạng nơ-ron còn lại được huấn luyện đồng bộ để duy trì hiệu quả thống kê. Ở cấp độ hệ thống, một loạt các tối ưu hóa hệ thống để quản lý bộ nhớ và giảm giao tiếp đã được thực hiện để giải phóng toàn bộ tiềm năng của thuật toán lai.

Tài nguyên đám mây cho 100 nghìn tỷ mô hình AI tham số

Khối lượng công việc AI 100 nghìn tỷ tham số Persia chạy trên các tài nguyên không đồng nhất sau:

3,000 lõi của Máy ảo chuyên sâu về máy tính
8 Máy ảo A2 với tổng số 64 GPU A100 Nvidia
30 máy ảo bộ nhớ cao, mỗi máy có 12 TB RAM, tổng cộng 360 TB
Hòa âm với Kubernetes
Tất cả các tài nguyên phải được khởi chạy đồng thời trong cùng một vùng để giảm thiểu độ trễ của mạng. Google Cloud có thể cung cấp dung lượng cần thiết với rất ít thông báo.

Đào tạo AI cần các nguồn lực theo từng đợt.

Google Kubernetes Engine (GKE) đã được sử dụng để điều phối việc triển khai 138 máy ảo và vùng chứa phần mềm. Có khối lượng công việc được chứa cũng cho phép chuyển và lặp lại quá trình đào tạo.

Kết quả và kết luận
Với sự hỗ trợ của cơ sở hạ tầng Google Cloud, nhóm đã chứng minh khả năng mở rộng của Persia lên đến 100 nghìn tỷ thông số. Thuật toán đào tạo phân tán kết hợp đã giới thiệu các thư giãn hệ thống phức tạp để sử dụng hiệu quả các cụm không đồng nhất, đồng thời hội tụ nhanh như vani SGD. Google Cloud là yếu tố cần thiết để khắc phục những hạn chế của phần cứng tại chỗ và chứng minh một môi trường điện toán tối ưu cho việc đào tạo Máy học phân tán trên quy mô lớn.

Persia đã được phát hành dưới dạng một dự án mã nguồn mở trên github với hướng dẫn thiết lập cho Google Cloud —mọi người từ cả học viện và ngành sẽ thấy dễ dàng đào tạo các mô hình đề xuất học sâu, quy mô 100 nghìn tỷ tham số.

Brian Wang là một nhà lãnh đạo tư tưởng theo chủ nghĩa tương lai và là một blogger Khoa học nổi tiếng với 1 triệu độc giả mỗi tháng. Blog của anh ấy Nextbigfuture.com được xếp hạng # 1 Blog Tin tức Khoa học. Nó bao gồm nhiều công nghệ và xu hướng đột phá bao gồm Không gian, Người máy, Trí tuệ nhân tạo, Y học, Công nghệ sinh học chống lão hóa và Công nghệ nano.

Được biết đến với việc xác định các công nghệ tiên tiến, anh hiện là Đồng sáng lập của một công ty khởi nghiệp và gây quỹ cho các công ty giai đoạn đầu tiềm năng cao. Ông là Trưởng bộ phận Nghiên cứu Phân bổ cho các khoản đầu tư công nghệ sâu và là Nhà đầu tư Thiên thần tại Space Angels.

Là một diễn giả thường xuyên tại các tập đoàn, anh ấy đã từng là diễn giả của TEDx, diễn giả của Đại học Singularity và là khách mời trong nhiều cuộc phỏng vấn cho đài phát thanh và podcast. Anh ấy sẵn sàng nói trước công chúng và tư vấn cho các cam kết.

Dấu thời gian:

Thêm từ Hợp đồng tương lai lớn tiếp theo