Dự án SageMaker cung cấp cho các tổ chức khả năng dễ dàng thiết lập và chuẩn hóa môi trường dành cho nhà phát triển dành cho các nhà khoa học dữ liệu và hệ thống CI/CD dành cho Kỹ sư MLOps. Với SageMaker Projects, kỹ sư MLOps hoặc quản trị viên tổ chức có thể xác định các mẫu khởi động Luồng công việc ML bằng tính năng kiểm soát phiên bản nguồn, Quy trình ML tự động và một bộ mã để nhanh chóng bắt đầu lặp lại các trường hợp sử dụng ML. Với Projects, việc quản lý phần phụ thuộc, quản lý kho lưu trữ mã, khả năng tái tạo bản dựng, chia sẻ và quản lý thành phần lạ trở nên dễ dàng để các tổ chức thiết lập. Dự án SageMaker được cung cấp bằng cách sử dụng Danh mục dịch vụ AWS các sản phẩm. Các mẫu dự án được các tổ chức sử dụng để cung cấp Dự án cho từng người dùng của họ.
Bài đăng này mô tả cách các mẫu Dự án SageMaker có thể được tùy chỉnh để phù hợp với trường hợp sử dụng của bất kỳ tổ chức nào. Kho lưu trữ GitHub này chứa các ví dụ về các mẫu tùy chỉnh.
Dự án SageMaker
Mỗi tổ chức đều có bộ tiêu chuẩn và biện pháp thực hành riêng nhằm cung cấp tính bảo mật và quản trị cho môi trường AWS của họ. SageMaker cung cấp một bộ mẫu của bên thứ nhất dành cho các tổ chức muốn bắt đầu nhanh chóng với quy trình công việc ML và CI/CD. Trong các mẫu này có các dự án sử dụng dịch vụ gốc của AWS cho CI/CD, chẳng hạn như Xây dựng mã AWS, Đường ống dẫn mã AWSvà Cam kết mã AWS và cả các dự án sử dụng công cụ của bên thứ ba như Jenkins và GitHub.
Thông thường, các tổ chức cần kiểm soát chặt chẽ các tài nguyên MLOps được cung cấp, hạn chế và quản lý; điều này bao gồm – định cấu hình vai trò/chính sách IAM, thực thi thẻ tài nguyên, thực thi mã hóa và tách tài nguyên trên nhiều tài khoản. Để giúp các tổ chức linh hoạt thực hiện việc này, Dự án SageMaker hỗ trợ các mẫu tùy chỉnh trong đó các tổ chức sử dụng tập lệnh AWS CloudFormation để xác định các tài nguyên cần thiết cho quy trình làm việc ML. Các mẫu tùy chỉnh này được tạo dưới dạng Danh mục dịch vụ AWS sản phẩm và được cung cấp dưới dạng Mẫu tổ chức trên giao diện người dùng SageMaker Studio. Đây là nơi các Nhà khoa học dữ liệu sẽ chọn một mẫu và khởi động và định cấu hình trước quy trình làm việc ML của họ. Danh mục dịch vụ AWS là dịch vụ AWS cho phép các tổ chức tạo và quản lý danh mục sản phẩm được phê duyệt để sử dụng trên AWS. Những sản phẩm này được tạo ra bằng cách sử dụng Sự hình thành mây mẫu.
Tìm hiểu các mẫu SageMaker 1P
Để giúp khách hàng của chúng tôi bắt đầu với các mô hình triển khai và xây dựng mô hình chung, SageMaker Projects cung cấp một bộ mẫu 1P. Các mẫu 1P thường tập trung vào việc tạo tài nguyên để xây dựng mô hình và đào tạo mô hình.
Để hiểu chi tiết về Dự án SageMaker, hãy chia nó thành hai thành phần – tài nguyên AWS và mã hạt giống dự án.
Các phần sau đây sẽ tham khảo “Mẫu MLOps để xây dựng, đào tạo và triển khai mô hình".
Tài nguyên AWS
- Hai kho lưu trữ CodeCommit được điền mã hạt giống. Một kho lưu trữ để xây dựng mô hình và một kho lưu trữ khác để triển khai mô hình.
- Hai giai đoạn CodeBuild được CodePipeline kích hoạt –
- Xây dựng mô hình – việc này xây dựng mã trong kho lưu trữ xây dựng mô hình.
- Triển khai mô hình – việc này xây dựng mã trong kho triển khai.
- Hai quy trình CodePipeline –
- Đường ống xây dựng mô hình
Quy trình này sẽ sắp xếp các bước xây dựng mô hình. Điều này bao gồm việc lấy mã mới nhất từ CodeCommit và bắt đầu thực thi CodeBuild. - Đường ống triển khai mô hình
Quy trình này sẽ sắp xếp các bước để Triển khai Mô hình. Điều này bao gồm lấy mã từ CodeCommit, bắt đầu thực thi CodeBuild và bất kỳ bước nào khác được xác định trong mẫu mô hình.
- Đường ống xây dựng mô hình
- Ba chậu Sự kiện Amazon quy tắc-
- Kích hoạt Đường ống xây dựng mô hình dựa trên các thay đổi đối với kho lưu trữ “modelbuild”
- Quy trình triển khai mô hình kích hoạt dựa trên các thay đổi đối với kho lưu trữ “modeldeploy”
- Quy trình triển khai mô hình kích hoạt khi một mô hình được “Đã phê duyệt” trong sổ đăng ký mô hình được liên kết với dự án này. Khi một điểm cuối đã được triển khai, việc thay đổi trạng thái từ “Đã phê duyệt” thành “Bị từ chối”, điểm cuối đó sẽ bị loại bỏ và điểm cuối “Đã phê duyệt” gần đây nhất trước đó sẽ được triển khai.
- An Amazon S3 xô cho dự án.
Mã hạt giống
Các kho lưu trữ CodeCommit do mẫu tạo ra được điền sẵn mã gốc để xây dựng mô hình và triển khai mô hình.
- Xây dựng mô hình Seed Code
Mã gốc cho quy trình xây dựng mô hình bao gồm Quy trình SageMaker xử lý trước bào ngư tập dữ liệu, huấn luyện mô hình XGBoost, đánh giá hiệu suất của mô hình bằng cách sử dụng bước xử lý và đăng ký mô hình vào sổ đăng ký mô hình dựa trên hiệu suất của mô hình. Một tập tin có têncodebuild-buildspec.yml
là một phần của mã hạt giống trong kho lưu trữ. Tệp này mô tả các bước trong CodeBuild để kích hoạt Quy trình SageMaker. Các nhà khoa học dữ liệu sẽ thực hiện các thay đổi đối với mã trong kho lưu trữ này để phản ánh các trường hợp sử dụng của họ. Mã hạt giống được cung cấp làm điểm khởi đầu để giúp nhanh chóng triển khai các trường hợp sử dụng ML mới. - Mã hạt giống triển khai mô hình
Mã gốc để triển khai mô hình bao gồm bước CodeBuild để tìm mô hình mới nhất đã được phê duyệt trong sổ đăng ký mô hình và tạo tệp cấu hình để triển khai mẫu CloudFormation. Mẫu CloudFormation triển khai mô hình vào giai đoạn "dàn dựng" hoặc "sản xuất". Một tập tin có tênbuildspec.yml
là một phần của kho lưu trữ này mô tả các bước được thực hiện để tìm mô hình mới nhất nhằm triển khai và tạo tập lệnh CloudFormation nhằm tạo Điểm cuối SageMaker. Các kỹ sư MLOps sẽ cập nhật mã trong kho lưu trữ này để thay đổi logic triển khai cụ thể. Lưu ý rằng những thay đổi đối với các giai đoạn triển khai (tổ chức, sản xuất, v.v.) sẽ yêu cầu mẫu tùy chỉnh vì đó là thay đổi trong CodePipeline chứ không phải mã hạt giống.
Kích hoạt đường ống
Quá trình xây dựng mô hình
- (Các) nhà khoa học dữ liệu cập nhật logic xây dựng mô hình (tức là tiền xử lý, tập lệnh đào tạo, v.v.) và gửi cam kết tới Kho lưu trữ số 1 trong CodeCommit.
- Quy tắc EventBridge kích hoạt quy trình xây dựng mô hình CodePipeline.
- Trong quy trình, dự án CodeBuild xây dựng quy trình SageMaker (có thể thay thế bằng bất kỳ mã đào tạo mô hình nào) và thực thi quy trình làm việc, tức là đào tạo mô hình và đăng ký mô hình đó vào sổ đăng ký mô hình SageMaker.
Mô hình sau đó có thể được phê duyệt hoặc bị từ chối trong sổ đăng ký. Các tổ chức nên xác định cách thức phê duyệt mô hình của họ diễn ra và có các quy trình chi phối những người dùng nào được phép phê duyệt mô hình trong cơ quan đăng ký.
Quy trình triển khai mô hình
- Các kỹ sư MLOps cập nhật mã triển khai mô hình và đẩy cam kết lên Kho lưu trữ số 2 trên CodeCommit hoặc một mô hình được phê duyệt trong sổ đăng ký mô hình.
- Các quy tắc EventBridge kích hoạt quy trình triển khai mô hình CodePipeline.
- Dự án CodeBuild tạo các cấu hình cho Giai đoạn và Sản xuất để các mẫu CloudFormation sử dụng.
- Trong giai đoạn “Triển khai” –
- Điểm cuối SageMaker được tạo trong “Staging” thông qua CloudFormation
- Dự án CodeBuild kiểm tra điểm cuối để biết trạng thái 'Đang hoạt động'.
- Nếu thử nghiệm thành công, bước phê duyệt thủ công sẽ được kích hoạt.
- Người dùng được chỉ định trong tổ chức sẽ phê duyệt mô hình trong CodePipeline theo cách thủ công
- Trong giai đoạn “DeployProd”, điểm cuối SageMaker được triển khai thành “Sản xuất”. Lưu ý rằng đối với mẫu 1P, cả hai điểm cuối đều được triển khai trong cùng một khu vực, với các hậu tố khác nhau (Staging hoặc Prod).
Nếu mô hình bị từ chối thì không có hành động nào được thực hiện.
Khi dự án 1P SageMaker này được tạo lần đầu tiên, mỗi quy trình sẽ tự động chạy khi mã hạt giống được đẩy vào các kho lưu trữ này lần đầu tiên. Sau đó, khi người dùng cập nhật mã trong một trong các kho lưu trữ để đáp ứng trường hợp sử dụng của họ, quy trình sẽ được kích hoạt lại. Một số trường hợp sử dụng phù hợp với mô hình do các mẫu của bên thứ nhất cung cấp, khiến các mẫu này trở thành một cách tuyệt vời để tạo ra các dự án ML. Ví dụ: thêm các bước bổ sung vào quy trình, thay đổi tập dữ liệu, cập nhật thuộc tính của điểm cuối đã triển khai như thêm DataCaptureConfig, sử dụng GitHub hoặc Jenkins thay vì các đối tác gốc AWS đều có thể đạt được bằng cách sử dụng mẫu của bên thứ nhất. Để biết thêm thông tin về các mẫu Dự án SageMaker của bên thứ nhất, hãy truy cập Tài liệu về Dự án SageMaker.
Tại sao tạo mẫu tùy chỉnh
Các tổ chức có thể muốn mở rộng các mẫu của bên thứ nhất để hỗ trợ các trường hợp sử dụng ngoài mô hình đào tạo và triển khai đơn giản. Mẫu dự án tùy chỉnh là một cách để các tổ chức tạo ra quy trình làm việc tiêu chuẩn cho các dự án Machine Learning. Tổ chức có thể tạo một số mẫu và sử dụng chính sách IAM để quản lý quyền truy cập vào các mẫu đó trên SageMaker Studio, đảm bảo rằng mỗi người dùng của họ đều truy cập vào các dự án dành riêng cho trường hợp sử dụng của họ.
Dưới đây là một số tình huống phổ biến khi tổ chức cần tạo mẫu dự án tùy chỉnh:
Kịch bản | Ưu đãi 1P hiện tại | Trường hợp sử dụng của tổ chức |
Sử dụng hệ thống SVC không được hỗ trợ trong mẫu của bên thứ nhất | Các mẫu của bên thứ nhất sử dụng trên AWS CodeStar Connections để xác thực với kho lưu trữ, giới hạn các mẫu của bên thứ nhất đối với CodeCommit, GitHub, BitBucket và GitHub dành cho doanh nghiệp. | Các tổ chức có thể có hệ thống kiểm soát phiên bản khác với các hệ thống hiện được cung cấp bởi mẫu 1P. |
Sử dụng chiến lược nhiều tài khoản để đào tạo và triển khai mô hình. | Hiện tại, tất cả các mẫu 1P đều thực hiện đào tạo và triển khai mô hình trong cùng một tài khoản. | Các tổ chức có thể muốn sử dụng chiến lược nhiều tài khoản như một phương pháp hay nhất với các tài khoản đào tạo chuyên dụng và tài khoản dàn dựng/sản xuất để triển khai. |
Quy trình phê duyệt tùy chỉnh để triển khai mô hình. | Mẫu 1P có 2 bước phê duyệt – Phê duyệt trong Sổ đăng ký mô hình và phê duyệt thủ công trong Đường ống CI/CD | Các tổ chức có thể phải thực hiện nhiều bước phê duyệt trước khi triển khai mô hình. |
Nhiều giai đoạn triển khai | Mẫu 1P triển khai mô hình theo 2 giai đoạn – dàn dựng và sản xuất. Cả hai điểm cuối đều được triển khai trong cùng một tài khoản. | Các tổ chức có thể có nhiều hơn 2 giai đoạn (dàn dựng, tiền sản xuất, sản xuất) để triển khai. |
Nhiều nhánh mã để thử nghiệm | Các mẫu 1P chỉ giả sử một nhánh duy nhất trong kho lưu trữ được sử dụng | Các tổ chức có thể có nhiều người dùng làm việc trên cùng một kho lưu trữ, trong đó mỗi người dùng làm việc trong các nhánh riêng lẻ để thử nghiệm với nhánh chính có phiên bản tốt nhất của quy trình đào tạo |
Tùy chọn lưu trữ tùy chỉnh | Mẫu 1P chỉ sử dụng điểm cuối được lưu trữ trên SageMaker | Các tổ chức có thể muốn tận dụng nhiều tùy chọn lưu trữ SageMaker – MME, Edge, v.v. |
Đường dẫn đơn cho nhiều trường hợp sử dụng | Mẫu 1P sử dụng một Đường dẫn SageMaker duy nhất để đào tạo mô hình | Các tổ chức có thể phải sử dụng SageMaker Pipeline để đào tạo và đăng ký nhiều mô hình, mỗi mô hình có tiêu chí đánh giá riêng nhằm hạn chế số lượng quy trình cần quản lý |
Đường ống phát triển và sản xuất | Các mẫu 1P đã sử dụng một quy trình duy nhất để phát triển và sản xuất | Trước tiên, các tổ chức có thể muốn thử nghiệm quy trình của mình trong môi trường phát triển, sau đó sử dụng quy trình CI/CD để tạo và chạy quy trình đó trong môi trường sản xuất |
Sử dụng mã hạt giống tùy chỉnh | Mẫu 1P có mã hạt giống tiêu chuẩn để xây dựng và triển khai mô hình | Các tổ chức có thể muốn cung cấp cho nhà phát triển của mình một bộ mã hạt giống tùy chỉnh dành riêng cho các trường hợp sử dụng mà họ làm việc. |
Sử dụng SageMaker Studio trong VPC | Mẫu 1P sử dụng SageMaker ở chế độ internet | Tổ chức có thể đang sử dụng SageMaker ở chế độ chỉ vpc |
Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh
Trong phần này, các tổ chức sẽ biết cách họ có thể xây dựng các mẫu tùy chỉnh của riêng mình và những điều cần cân nhắc khi thiết kế các mẫu của riêng họ.
Tích hợp kiểm soát phiên bản nguồn
Các mẫu 1P sử dụng Kết nối AWS CodeStar để quản lý xác thực giữa Dự án và kho lưu trữ để có thể đẩy mã hạt giống vào đó. Phương pháp này sẽ hỗ trợ GitHub, GitHub Enterprise và BitBucket ngoài kho lưu trữ gốc của AWS, CodeCommit. Nếu các tổ chức muốn sử dụng các kho lưu trữ khác nhau thì cần phải cung cấp cơ chế xác thực khác trong Dự án. Một cách tiếp cận được khuyến nghị là sử dụng một AWS Lambda chức năng với Quản lý bí mật AWS để xác thực với kho lưu trữ và đẩy mã hạt giống. Sau khi mã hạt giống đã được đẩy, quá trình xác thực với kho lưu trữ trên SageMaker Studio sẽ diễn ra thông qua tên người dùng và mật khẩu của kho lưu trữ. Phương thức với Lambda và Secrets Manger nhằm mục đích đẩy mã hạt giống vào kho lưu trữ khi dự án được tạo. Các chiến lược thay thế để đẩy mã hạt giống vào kho lưu trữ có thể được khám phá dựa trên kho lưu trữ của tổ chức, cơ chế xác thực, trường hợp sử dụng, v.v.
Mã hạt giống được đẩy vào kho lưu trữ phải được tùy chỉnh để hỗ trợ trường hợp sử dụng của dự án.
Kích hoạt CI/CD
Trong Dự án SageMaker, công cụ CI/CD được sử dụng sẽ chịu trách nhiệm kích hoạt quá trình đào tạo và triển khai mô hình. Khi trạng thái của một mô hình được thay đổi trong Sổ đăng ký mô hình, một thông báo EventBridge sẽ được phát ra để cảnh báo công cụ CI/CD bắt đầu triển khai. Tương tự, công cụ CI/CD sẽ cần sử dụng API của SageMaker để bắt đầu thực thi Đường ống SageMaker khi thực hiện thay đổi đối với kho lưu trữ xây dựng mô hình. Trong mẫu 1P sử dụng Jenkins cho CI/CD, Đường dẫn Jenkins được kích hoạt bằng cách đẩy tới kho lưu trữ SVC. Đường dẫn CI/CD sử dụng các lệnh AWS CLI để khởi động Đường dẫn SageMaker nhằm đào tạo mô hình và chạy các tập lệnh CloudFormation để triển khai mô hình đến điểm cuối.
Trong trường hợp các tổ chức muốn sử dụng các công cụ CI/CD không được hỗ trợ trong mẫu 1P (Jenkins, CodePipeline), họ phải đảm bảo rằng kho lưu trữ của mình có thể kích hoạt Đường dẫn CI/CD và các lệnh AWS CLI của họ có thể được gọi cho CI/CD đường ống để có thể gọi các dịch vụ AWS liên quan (SageMaker Pipelines, CloudFormation, v.v.). Trong mẫu 1P, hàm Lambda được dùng để kích hoạt quy trình Jenkins/CodePipeline khi một mô hình trong Sổ đăng ký mô hình được phê duyệt, bạn cũng có thể thực hiện thao tác tương tự khi sử dụng các công cụ CI/CD khác.
Xác định vai trò và tác nhân IAM
Dự án SageMaker yêu cầu một tập hợp vai trò IAM thuộc hai loại:
- Ra mắt vai trò – Dùng để xác định ràng buộc trong Danh mục dịch vụ buộc sản phẩm cơ bản phải được cung cấp bằng LaunchRole được chỉ định. Điều này cho phép các nhà phát triển tạo dự án bằng cách sử dụng các mẫu mà không cần Vai trò thực thi SageMaker của họ để có tất cả các chính sách cần thiết để khởi chạy Dự án. Danh mục dịch vụ đảm nhận vai trò ràng buộc khởi chạy trong khi tạo dự án để các nhà phát triển sử dụng dự án có thể giới hạn vai trò của họ đối với các chính sách cụ thể mà họ cần.
- Sử dụng vai trò – Được sử dụng trong mẫu bởi từng tài nguyên cho các hoạt động được yêu cầu. Đối với mỗi thao tác trong mẫu sản phẩm, Vai trò sử dụng do Hiệu trưởng dịch vụ AWS tương ứng đảm nhận.
Vai trò trong mẫu 1P:
Mẫu 1P sử dụng các vai trò do AWS quản lý sau đây.
- Ra mắt vai trò – Chính sách được quản lý của Amazon
AmazonSageMakerServiceCatalogProductsLaunchRoleis
được sử dụng bởi các mẫu của bên thứ nhất cho ràng buộc khởi chạy Danh mục dịch vụ. - Sử dụng vai trò –
AmazonSageMakerServiceCatalogProductsUseRole
được sử dụng bởi các tài nguyên được tạo trong 1st các mẫu tiệc.
Vai trò trong mẫu tùy chỉnh:
Trong trường hợp các mẫu tùy chỉnh, LaunchRole
cần được cập nhật để có đủ quyền triển khai tất cả tài nguyên trong mẫu CloudFormation; và UseRole
cần phải có tất cả các dịch vụ liên quan trong chính sách tin cậy của mình để các dịch vụ có thể đảm nhận đúng vai trò. Khách hàng có thể xác định một UseRole
cho mỗi dịch vụ thay vì một vai trò duy nhất cho tất cả các dịch vụ.
Để bắt đầu, hãy xác định chân dung người dùng được liên kết với ứng dụng ngoài quản trị viên, tức là nhà khoa học dữ liệu, nhóm MLOps, v.v., đồng thời thiết kế các chính sách IAM với quyền truy cập ít đặc quyền nhất cho mỗi người dùng và các dịch vụ như SageMaker Studio và Service Mục lục. Nhìn thấy Các hành động, tài nguyên và khóa điều kiện cho các dịch vụ AWS để biết danh sách đầy đủ các chính sách IAM. Một tập hợp mẫu các vai trò IAM là:
- Quản trị: Người dùng này sẽ chịu trách nhiệm tạo mẫu tùy chỉnh và cung cấp mẫu đó cho người dùng nhà khoa học dữ liệu. Các đặc quyền bắt buộc bao gồm quyền truy cập vào Danh mục dịch vụ, IAM (để tạo vai trò và chính sách) và SageMaker ở mức tối thiểu.
- Nhà khoa học dữ liệu: Người dùng này sẽ khởi chạy SageMaker Studio, tạo sổ ghi chép và triển khai mẫu dự án, chạy xử lý, đào tạo công việc, v.v. Để tách biệt các quyền, vai trò người dùng này chỉ cần quyền truy cập để mở hồ sơ người dùng SageMaker Studio và các quyền còn lại có thể được xử lý thông qua vai trò thực thi của sổ ghi chép.
- Nhà khoa học dữ liệu chính: Người dùng này sẽ chịu trách nhiệm phê duyệt việc triển khai tài nguyên trong Sản xuất. Vai trò này thường có thể là trưởng nhóm, người sẽ xác thực các tài nguyên dàn dựng, xác minh tất cả các điều kiện được đáp ứng và phê duyệt các thay đổi trong quá trình sản xuất. Người dùng bổ sung này cung cấp khả năng kiểm tra và thêm kiểm tra thủ công trước khi thực hiện bất kỳ thay đổi nào trong môi trường trực tiếp.
- Vai trò thực thi sổ ghi chép Studio: Đây là vai trò dịch vụ do người dùng studio SageMaker đảm nhận. Nó thường bao gồm quyền cấp cao hơn đối với SageMaker, với quyền truy cập bổ sung vào Cơ quan đăng ký bộ chứa đàn hồi, nhóm S3 cụ thể, CodePipeline, CodeBuild, nhật ký CloudWatch, v.v. nếu cần. Để có thể liệt kê và tạo Dự án SageMaker, vai trò này cũng cần có quyền truy cập vào Danh mục dịch vụ.
- Vai trò khởi chạy mẫu tùy chỉnh và vai trò người dùng: Các vai trò do SageMaker đảm nhận khi khởi chạy mẫu dự án tùy chỉnh và để tạo các tài nguyên được mẫu triển khai. Việc thêm sự phân biệt giữa vai trò của sổ ghi chép và vai trò khởi chạy của mẫu cho phép quản trị viên giới hạn quyền của người dùng cuối ở mức tối thiểu mà họ yêu cầu đối với mỗi sản phẩm. Nhìn thấy Các ràng buộc khi khởi chạy danh mục dịch vụ AWS để có tài liệu chi tiết.
Chiến lược triển khai mô hình
Dựa trên tùy chọn lưu trữ phù hợp với trường hợp sử dụng, các thành phần triển khai của mẫu sẽ được cập nhật để sử dụng tùy chọn lưu trữ đó. Ví dụ: nếu mô hình cần được triển khai đến điểm cuối nhiều mô hình thì tập lệnh CloudFormation sẽ được cập nhật để phản ánh điều đó. Hoặc nếu sử dụng Đường ống suy luận nối tiếp thì PipelineModel phải được đăng ký với Cơ quan đăng ký mô hình theo đường dẫn đào tạo và CloudFormation được sử dụng để triển khai PipelineModel đến Điểm cuối SageMaker. Tương tự, mẫu có thể được sửa đổi để hỗ trợ biên dịch mô hình triển khai Edge bằng cách sử dụng SageMaker Neo.
Ngoài tùy chọn lưu trữ, chiến lược phê duyệt phải được mã hóa vào mẫu tùy chỉnh. Trong các mẫu 1P như được mô tả ở trên, quy trình phê duyệt triển khai diễn ra theo 2 bước. Đầu tiên là phê duyệt mô hình trong Sổ đăng ký mô hình, thứ hai là bước phê duyệt thủ công trong CodePipeline hoặc Jenkins. Điều này có thể không phù hợp với cơ chế quản lý phê duyệt áp dụng cho các tổ chức khi họ triển khai các mô hình. Một ví dụ về cơ chế phê duyệt khác có thể là hạn chế người dùng có thể cập nhật trạng thái mô hình Đăng ký mô hình để chỉ Kỹ sư MLOps mới có thể cập nhật trạng thái thành “Đã phê duyệt”. Sau khi được phê duyệt, quy trình CI/CD có thể có một bước kiểm tra các thử nghiệm tích hợp nhất định sẽ được hoàn thành cùng với phê duyệt thủ công từ quản trị viên tài khoản trước khi triển khai mô hình. Quy trình phê duyệt như vậy có thể được thiết kế trong mẫu tùy chỉnh để xác định phương pháp tiêu chuẩn cho việc triển khai trên toàn tổ chức.
Cuối cùng, các mẫu 1P hoạt động trong một tài khoản theo các phương pháp hay nhất về CI/CD, các tổ chức có thể có chiến lược nhiều tài khoản với các tài khoản nhà phát triển, dàn dựng và sản phẩm chuyên dụng. Trong trường hợp này, khách hàng có thể sử dụng Tổ chức AWS để quản lý các tài khoản đó và tận dụng các ngăn xếp CloudFormation của nhiều tài khoản để xử lý việc triển khai. Sơ đồ sau minh họa cách thiết lập điều này.
Để biết hướng dẫn chi tiết về cách thiết lập triển khai nhiều tài khoản bằng Dự án SageMaker, hãy tham khảo điều này blog.
Bảo mật, mã hóa và gắn thẻ
- Bảo mật và mã hóa
Bảo mật là ưu tiên cao nhất tại AWS. Trong khi tạo quy trình làm việc CI/CD cho machine learning, bắt buộc phải hiểu cách bảo mật dữ liệu bí mật được sử dụng cho hoạt động đào tạo. AWS khuyến nghị mã hóa AWS KMS-CMK cho bộ lưu trữ, tức là bộ chứa S3, đối tượng, ổ đĩa SageMaker Studio, v.v. Lập phiên bản S3 cho phép khôi phục các đối tượng trong trường hợp vô tình xóa và tính năng ghi nhật ký S3 sẽ cung cấp nhật ký truy cập của bộ chứa tới bộ chứa đích. Tạo miền SageMaker Studio trong VPC bảo mật và sử dụng điểm cuối VPC để tránh truyền dữ liệu qua Internet công cộng. Xem sách trắng Xây dựng Nền tảng máy học an toàn cho doanh nghiệp trên AWSđể có những thực hành tốt nhất. - Gắn thẻ
Thẻ được sử dụng để sắp xếp tài nguyên theo người dùng, nhóm, dự án hoặc bộ phận và theo dõi chi phí AWS của bạn ở cấp độ chi tiết. Ngoài ra, thẻ có thể được sử dụng để thực thi các chính sách IAM, ví dụ: cách ly tài nguyên giữa hai nhóm như được mô tả trong bài đăng trên blog Định cấu hình Amazon SageMaker Studio cho các nhóm và nhóm với sự cô lập hoàn toàn về tài nguyên. Vì những lý do như vậy, bạn có thể thực thi gắn thẻ trên bất kỳ Dự án SageMaker nào do người dùng tạo thông qua chính sách IAM. Đối với vai trò nhà khoa học dữ liệu, hãy thêm tuyên bố chính sách IAM sau:
Khi bạn tạo một sản phẩm tùy chỉnh, bạn cũng có thể sử dụng Thư viện tùy chọn thẻ để thực thi các giá trị cho mỗi thẻ. Khi thẻ được chỉ định cho Dự án, SageMaker sẽ truyền thẻ tới tất cả tài nguyên của Dự án.
Trong cài đặt tổ chức, bạn cũng có thể tạo nhiều mẫu Dự án (Sản phẩm danh mục dịch vụ) cho các nhóm khác nhau và hạn chế quyền truy cập của mỗi nhóm vào mẫu tương ứng bằng chính sách IAM.
Áp dụng các phương pháp hay nhất này vào trường hợp sử dụng
Bảng này mô tả cách các phương pháp hay nhất được mô tả ở trên có thể giúp giải quyết nhiều trường hợp sử dụng khác nhau trong đó các mẫu dự án tùy chỉnh được tạo.
Kịch bản | Giải pháp đề xuất |
Sử dụng hệ thống SVC không được hỗ trợ trong mẫu của bên thứ nhất | Các mẫu của bên thứ nhất có thể được tùy chỉnh để sử dụng các cơ chế xác thực tùy chỉnh như chức năng Lambda với AWS Secrets Manager hoặc bất kỳ cách nào khác để truy cập mã trong kho lưu trữ. Tham khảo Kiểm soát phiên bản nguồn trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. Đây là một ví dụ về điều này. |
Sử dụng chiến lược nhiều tài khoản để đào tạo và triển khai mô hình. | Sử dụng AWS Organisation để quản lý nhiều tài khoản và ngăn xếp CloudFormation nhiều tài khoản để quản lý việc triển khai mô hình trong nhiều tài khoản. Tham khảo “Chiến lược triển khai mô hình” trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Quy trình phê duyệt tùy chỉnh để triển khai mô hình. | Thêm các bài kiểm tra đơn vị, bài kiểm tra tích hợp, các bước phê duyệt thủ công bổ sung, nhiều bước đánh giá trong quy trình đào tạo, v.v. để có chiến lược phê duyệt mô hình mạnh mẽ. Tham khảo “Chiến lược triển khai mô hình” trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Nhiều giai đoạn triển khai | Đường ống CI/CD (CodePipeline, Jenkins, v.v.) cần được cập nhật tất cả các bước triển khai cần thiết. Một bước cho mỗi giai đoạn triển khai. Tham khảo “Chiến lược triển khai mô hình” trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Nhiều nhánh mã để thử nghiệm | Một mẫu tùy chỉnh có thể được tạo trong đó mỗi lần một nhánh mới trong SVC được đẩy để thử nghiệm, một Đường dẫn SageMaker cho nhánh đó sẽ được tạo và thực thi. Đây là một ví dụ về mẫu tùy chỉnh để kích hoạt chiến lược này. |
Tùy chọn lưu trữ tùy chỉnh | Bạn có thể tạo một mẫu tùy chỉnh để thay đổi tập lệnh CloudFormation dùng để triển khai điểm cuối và có thể cập nhật các giai đoạn triển khai cho phù hợp với tùy chọn lưu trữ đã chọn. Tham khảo “Chiến lược triển khai mô hình” trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Đường dẫn đơn cho nhiều trường hợp sử dụng | Mã hạt giống của dự án có thể được cập nhật để có một Đường ống SageMaker duy nhất đào tạo nhiều mô hình phục vụ nhiều trường hợp sử dụng. Các trường hợp điều này hữu ích có thể là khi một tập dữ liệu duy nhất được sử dụng để huấn luyện nhiều mô hình, mỗi mô hình được huấn luyện trên các tập hợp con dữ liệu khác nhau. Điều này ngăn chặn nhu cầu quản lý nhiều quy trình và giảm số bước chuẩn bị dữ liệu cần thiết. |
Đường ống phát triển và sản xuất | Bạn có thể tạo một mẫu tùy chỉnh để tạo Đường dẫn SageMaker bằng cách sử dụng định nghĩa Đường ống là môi trường sản xuất khi định nghĩa được đẩy tới kho lưu trữ SVC. Bằng cách này, các nhà khoa học dữ liệu có thể kiểm tra quy trình của họ trong môi trường nhà phát triển, lặp lại quy trình đó cho đến khi quy trình đạt đến trạng thái mong muốn, đẩy tệp định nghĩa quy trình vào kho lưu trữ, yêu cầu quy trình CI/CD tạo quy trình mới bằng cách sử dụng cùng định nghĩa trong môi trường sản xuất và bắt đầu thực hiện nó. |
Sử dụng mã hạt giống tùy chỉnh | Một mẫu tùy chỉnh có thể được tạo để lấy mã từ vị trí lưu trữ mã hạt giống tùy chỉnh cho dự án. Đây có thể là một kho lưu trữ hoặc bộ chứa S3 do tổ chức quản lý để lấy mã từ đó. Tham khảo Kiểm soát phiên bản nguồn trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Sử dụng SageMaker Studio trong VPC | Bạn có thể tạo một mẫu tùy chỉnh có quyền truy cập vào nhóm bằng mã hạt giống thông qua điểm cuối VPC. Nếu không có điều này, khi dự án được tạo, mã hạt giống sẽ không có sẵn để đưa vào kho lưu trữ. Tham khảo Bảo mật, mã hóa và gắn thẻ trong phần Các phương pháp hay nhất để thiết kế mẫu dự án tùy chỉnh. |
Kết luận
Bằng cách sử dụng hướng dẫn và phương pháp thực hành tốt nhất được mô tả ở đây, các tổ chức có thể cung cấp cho người dùng quy trình làm việc được tiêu chuẩn hóa cho ML nhằm giúp tăng năng suất và đảm bảo tuân thủ các tiêu chuẩn của tổ chức.
Truy cập kho lưu trữ GitHub này để biết ví dụ về cách xây dựng mẫu của riêng bạn và đóng góp vào kho lưu trữ bằng các mẫu tùy chỉnh của riêng bạn!
Về các tác giả
Kirit Thadaka là Kiến trúc sư Giải pháp ML làm việc trong nhóm SageMaker Service SA. Trước khi gia nhập AWS, Kirit đã dành thời gian làm việc tại các công ty khởi nghiệp AI giai đoạn đầu, sau đó là một thời gian tư vấn ở nhiều vai trò khác nhau trong nghiên cứu AI, MLOps và lãnh đạo kỹ thuật.
Durga Sury là Nhà khoa học dữ liệu trong nhóm Cung cấp năng lượng trong Dịch vụ chuyên nghiệp. Trước AWS, cô đã giúp các cơ quan chính phủ và phi lợi nhuận thu được thông tin chi tiết từ dữ liệu của họ để cải thiện kết quả giáo dục. Tại AWS, cô tập trung vào Xử lý ngôn ngữ tự nhiên và MLOps.
- '
- &
- 100
- 11
- 7
- 9
- truy cập
- Tài khoản
- Hoạt động
- thêm vào
- quản trị viên
- AI
- ai nghiên cứu
- Tất cả
- đàn bà gan dạ
- Amazon SageMaker
- api
- Các Ứng Dụng
- Xác thực
- Tự động
- AWS
- BEST
- thực hành tốt nhất
- Blog
- chi nhánh
- xây dựng
- Xây dựng
- trường hợp
- thay đổi
- phí
- Séc
- mã
- Chung
- tuân thủ
- Kết nối
- tư vấn
- Container
- Chi phí
- Tạo
- khách hàng
- dữ liệu
- nhà khoa học dữ liệu
- tập dữ liệu
- giao hàng
- Thiết kế
- chi tiết
- Dev
- Nhà phát triển
- phát triển
- Phát triển
- Cạnh
- Đào tạo
- mã hóa
- Điểm cuối
- năng lượng
- Kỹ sư
- Doanh nghiệp
- Môi trường
- vv
- thực hiện
- Tên
- lần đầu tiên
- phù hợp với
- Linh hoạt
- chức năng
- GitHub
- quản trị
- Chính phủ
- tuyệt vời
- tại đây
- lưu trữ
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- IAM
- ICS
- xác định
- thông tin
- những hiểu biết
- hội nhập
- Internet
- cô lập
- IT
- việc làm
- phím
- Ngôn ngữ
- mới nhất
- phóng
- dẫn
- Lãnh đạo
- học tập
- Cấp
- Tỉ lệ đòn bẩy
- Hạn chế
- Danh sách
- địa điểm thư viện nào
- học máy
- Làm
- quản lý
- ML
- MLOps
- kiểu mẫu
- Ngôn ngữ tự nhiên
- Xử lý ngôn ngữ tự nhiên
- phi lợi nhuận
- máy tính xách tay
- thông báo
- Cung cấp
- mở
- Hoạt động
- Tùy chọn
- Các lựa chọn
- cơ quan
- tổ chức
- Nền tảng khác
- mô hình
- Mật khẩu
- hiệu suất
- nền tảng
- Chính sách
- điều luật
- Hiệu trưởng
- Sản phẩm
- Sản lượng
- năng suất
- Sản phẩm
- Hồ sơ
- dự án
- dự án
- công khai
- kéo
- lý do
- phục hồi
- nghiên cứu
- tài nguyên
- Thông tin
- quy tắc
- chạy
- chạy
- nhà làm hiền triết
- các nhà khoa học
- an ninh
- hạt giống
- chọn
- DỊCH VỤ
- phục vụ
- định
- thiết lập
- So
- Giải pháp
- động SOLVE
- Traineeship
- tiêu chuẩn
- Bắt đầu
- bắt đầu
- Startups
- Tiểu bang
- Tuyên bố
- Trạng thái
- là gắn
- Chiến lược
- hỗ trợ
- Hỗ trợ
- hệ thống
- Mục tiêu
- Kỹ thuật
- thử nghiệm
- kiểm tra
- thời gian
- theo dõi
- Hội thảo
- tàu hỏa
- NIỀM TIN
- ui
- Cập nhật
- Người sử dụng
- kiểm soát phiên bản
- khối lượng
- Bản cáo bạch
- CHÚNG TÔI LÀ
- ở trong
- Công việc
- quy trình làm việc
- công trinh