SageMaker Autopilot 모델 품질 보고서를 사용하여 모델 평가 지표 자동 생성

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 자동 조종 장치 기능 엔지니어링, 훈련, 조정 및 추론을 위한 ML 모델 배포 단계를 자동화하여 엔드투엔드 기계 학습(ML) 워크플로를 완료하는 데 도움이 됩니다. SageMaker Autopilot에 테이블 형식 데이터 세트와 예측할 대상 속성을 제공합니다. 그런 다음 SageMaker Autopilot은 자동으로 데이터를 탐색하고, 훈련하고, 조정하고, 순위를 매기고 최상의 모델을 찾습니다. 마지막으로 한 번의 클릭으로 추론을 위해 이 모델을 프로덕션에 배포할 수 있습니다.

새로운 기능?

새롭게 출시된 기능, SageMaker Autopilot 모델 품질 보고서에서는 이제 회귀 및 분류 문제에 대한 모델 성능에 대한 더 나은 가시성을 제공하기 위해 모델의 측정항목을 보고합니다. 이러한 지표를 활용하여 모델 순위표에서 최고의 모델에 대한 더 많은 통찰력을 수집할 수 있습니다.

최상의 모델의 "모델 세부정보" 아래에 있는 새로운 "성능" 탭에서 사용할 수 있는 이러한 측정항목 및 보고서에는 혼동 행렬, AUC-ROC(수신기 작동 특성) 곡선 아래 영역 및 정밀도-재현율 곡선 아래 영역이 포함됩니다. (AUC-PR). 이러한 측정항목은 FP/FN(가양성/거짓음성), 참양성(TP)과 거짓양성(FP) 사이의 상충관계, 정밀도와 재현율 사이의 상충관계를 이해하여 최고의 모델 성능 특성을 평가하는 데 도움이 됩니다.

SageMaker Autopilot 실험 실행

데이터 세트

우리는 사용 UCI의 은행 마케팅 데이터 세트 SageMaker Autopilot 모델 품질 보고서를 시연합니다. 이 데이터에는 연령, 직업 유형, 결혼 여부 등 고객이 은행에 계좌를 개설할지 예측하는 데 사용할 기타 고객 속성이 포함되어 있습니다. 데이터 세트에서는 이 계좌를 정기 예금으로 참조합니다. 이는 우리의 사례를 이진 분류 문제로 만듭니다. 예측은 "예" 또는 "아니요"가 됩니다. SageMaker Autopilot은 잠재 고객을 가장 잘 예측하기 위해 당사를 대신하여 여러 모델을 생성합니다. 그런 다음 SageMaker Autopilot의 모델 품질 보고서를 살펴보겠습니다. 최고의 모델.

사전 조건

SageMaker Autopilot 실험을 시작하려면 먼저 데이터를 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 훈련에 사용할 버킷과 접두사를 지정합니다. 버킷이 SageMaker Autopilot 실험과 동일한 리전에 있는지 확인하십시오. 또한 IAM(Identity and Access Management) 역할 Autopilot에 Amazon S3의 데이터에 액세스할 수 있는 권한이 있는지 확인해야 합니다.

실험 만들기

SageMaker Studio에서 SageMaker Autopilot 실험을 생성하기 위한 몇 가지 옵션이 있습니다. 새 런처를 열면 SageMaker Autopilot에 직접 액세스할 수 있습니다. 그렇지 않은 경우 왼쪽에 있는 SageMaker 리소스 아이콘을 선택할 수 있습니다. 다음으로 선택할 수 있습니다. 실험과 시련 드롭 다운 메뉴에서

실험에 이름을 지정하세요.
Amazon S3 버킷과 파일 이름을 선택하여 데이터 소스에 연결합니다.
Amazon S3에서 출력 데이터 위치를 선택합니다.
데이터 세트의 타겟 열을 선택하세요. 이 경우 'y' 열을 대상으로 하여 예/아니요를 나타냅니다.
선택적으로 SageMaker Autopilot이 모델 엔드포인트를 자동으로 배포하도록 하려면 엔드포인트 이름을 제공합니다.
다른 고급 설정은 모두 기본값으로 두고 다음을 선택합니다. 실험 만들기.

실험이 완료되면 SageMaker Studio에서 결과를 볼 수 있습니다. SageMaker Autopilot은 훈련하는 다양한 모델 중에서 가장 좋은 모델을 제시합니다. 다양한 시도에 대한 세부정보와 결과를 볼 수 있지만 모델 품질 보고서의 사용법을 보여주기 위해 최상의 모델을 사용하겠습니다.

모델을 선택하고 마우스 오른쪽 버튼을 클릭하여 모델 세부정보에서 열기.
모델 세부정보 내에서 퍼포먼스 탭. 이는 시각화 및 플롯을 통해 모델 측정항목을 보여줍니다.
$XNUMX Million 미만 퍼포먼스, 고르다 성과 보고서 다운로드 PDF로.

SageMaker Autopilot 모델 품질 보고서 해석

모델 품질 보고서에는 SageMaker Autopilot 작업 및 모델 세부 정보가 요약되어 있습니다. 보고서의 PDF 형식에 중점을 두겠지만 결과를 JSON으로 액세스할 수도 있습니다. SageMaker Autopilot은 데이터 세트를 이진 분류 문제로 판단했기 때문에 SageMaker Autopilot은 F1 품질 지표 최고의 모델을 찾기 위해. SageMaker Autopilot에서는 기본적으로 이를 선택합니다. 그러나 정확도 및 AUC와 같은 다른 객관적인 지표를 선택할 수 있는 유연성이 있습니다. 우리 모델의 F1 점수는 0.61입니다. F1 점수를 해석하려면 먼저 출력된 PDF의 모델 품질 보고서에서 설명하는 혼동 행렬을 이해하는 것이 도움이 됩니다.

혼란 매트릭스

혼동 행렬은 다양한 클래스와 레이블을 비교하여 모델 성능을 시각화하는 데 도움이 됩니다. SageMaker Autopilot 실험에서는 모델 품질 보고서에서 실제 레이블을 행으로 표시하고 예측 레이블을 열로 표시하는 혼동 행렬을 생성했습니다. 왼쪽 상단 상자에는 모델에 의해 '아니요'로 정확하게 예측된 은행에 계좌를 개설하지 않은 고객이 표시됩니다. 이것들은 진정한 부정 (TN). 오른쪽 아래 상자에는 모델에 의해 '예'로 올바르게 예측된 은행에 계좌를 개설한 고객이 표시됩니다. 이것들은 진정한 긍정 (PT).

왼쪽 하단에는 개수가 표시됩니다. 거짓 부정 (FN). 모델은 고객이 계좌를 개설하지 않을 것이라고 예측했지만 고객은 계좌를 개설했습니다. 오른쪽 상단에는 개수가 표시됩니다. 가양 성 (FP). 모델은 고객이 계좌를 개설할 것이라고 예측했지만 고객은 실제로 계좌를 개설했습니다. 지원 실제로 그렇게 하세요.

모델 품질 보고서 지표

모델 품질 보고서에서는 거짓양성률(FPR) 그리고 참양성률(TPR).

리콜 또는 거짓양성률(FPR) 계좌 개설 시 잘못 예측된 실제 부정적(긍정적) 비율을 측정합니다. 범위는 0~1이며, 값이 작을수록 예측 정확도가 높다는 것을 의미합니다.

FPR은 1-특이성으로도 표현됩니다. 여기서 특이성 또는 참음성율(TNR)은 계좌를 개설하지 않은 것으로 올바르게 식별된 TN(음성)의 비율입니다.

재현율/민감도/참양성률(TPR) 계좌 개설로 예측된 실제 긍정적인 비율을 측정합니다. 범위도 0~1이며, 값이 클수록 예측 정확도가 높다는 것을 의미합니다. 이는 회상/민감성이라고도 합니다. 이 측정값은 데이터 세트에서 관련 인스턴스를 모두 찾는 기능을 나타냅니다.

Precision 양성으로 예측된 모든 항목 중에서 양성으로 예측된 실제 양성의 비율을 측정합니다. 범위는 0~1이며, 값이 클수록 정확도가 높습니다. 정밀도는 우리 모델이 관련성이 있다고 말하고 실제로 관련성이 있다고 말하는 데이터 포인트의 비율을 나타냅니다. 정밀도는 특히 이메일 스팸 탐지와 같이 FP 비용이 높을 때 고려해야 할 좋은 척도입니다.

우리 모델은 0.53의 정밀도와 0.72의 재현율을 보여줍니다.

F1 점수 정밀도와 재현율의 조화 평균인 목표 측정항목을 보여줍니다. 우리의 데이터 세트는 많은 '아니오' 예측에 유리하게 불균형하기 때문에 F1은 FP와 FN을 모두 고려하여 정밀도와 재현율에 동일한 가중치를 부여합니다.

보고서에서는 이러한 측정항목을 해석하는 방법을 설명합니다. 이러한 용어에 익숙하지 않은 경우 도움이 될 수 있습니다. 이 예에서 정밀도와 재현율은 F1 점수를 계산하는 데 사용되므로 이진 분류 문제에 대한 중요한 측정항목입니다. 보고서에서는 F1 점수가 0과 1 사이에서 달라질 수 있다고 설명합니다. 가능한 최고의 성능은 1점을 받고 0은 최악의 성능을 나타냅니다. 우리 모델의 F1 점수는 0.61이라는 점을 기억하세요.

Fβ 점수 정밀도와 재현율의 가중 조화 평균입니다. 또한, F1 점수는 β=1인 Fβ와 동일합니다. 보고서는 분류기의 Fβ 점수를 제공하며, 여기서 β는 0.5, 1, 2를 사용합니다.

측정항목 테이블

문제에 따라 SageMaker Autopilot이 다중 클래스 분류 문제에 대해 정확도와 같은 다른 지표를 최대화하는 것을 확인할 수 있습니다. 문제 유형에 관계없이 모델 품질 보고서는 인라인 및 PDF 보고서 모두에서 사용할 수 있는 모델 측정항목을 요약하는 표를 생성합니다. 측정항목 표에 대한 자세한 내용은 선적 서류 비치.

최고의 상수 분류기(다른 더 복잡한 분류기와 비교하기 위한 간단한 기준선 역할을 하는 분류기)는 항상 사용자가 제공하는 상수 다수 레이블을 예측합니다. 우리의 경우 '상수' 모델은 '아니요'를 예측할 것입니다. 왜냐하면 그것이 가장 빈번한 클래스이고 부정적인 라벨로 간주되기 때문입니다. 훈련된 분류기 모델(예: f1, f2 또는 재현율)의 측정항목은 상수 분류기의 측정항목, 즉 기준선과 비교할 수 있습니다. 이렇게 하면 훈련된 모델이 상수 분류자보다 더 나은 성능을 발휘할 수 있습니다. Fβ 점수(f0_5, f1, f2, 여기서 β는 각각 0.5, 1, 2의 값을 취함)는 정밀도와 재현율의 가중 조화 평균입니다. 이는 1에서 최적의 값에 도달하고 0에서 최악의 값에 도달합니다.

우리의 경우, 최고의 상수 분류기는 항상 '아니요'를 예측합니다. 따라서 정확도는 0.89로 높지만 재현율, 정밀도 및 Fβ 점수는 0입니다. 단일 다수 또는 소수 클래스가 없는 데이터 세트가 완벽하게 균형을 이룬다면 정밀도, 재현율, 및 상수 분류기의 Fβ 점수.

또한 다음 샘플과 같이 이러한 결과를 JSON 형식으로 볼 수 있습니다. ΥUI를 통해 PDF와 JSON 파일에 모두 액세스할 수 있을 뿐만 아니라 Amazon SageMaker Python SDK S3OutputPath 요소를 사용하여 출력 데이터 구성 의 구조 AutoMLJob 생성/AutoMLJob 설명 API 응답.

{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….

ROC 및 AUC

문제 유형에 따라 FPR로 허용되는 임계값이 다양할 수 있습니다. 예를 들어, 고객이 계좌를 개설할지 예측하려는 경우 기업에서는 더 높은 FP 요율을 갖는 것이 더 적합할 수 있습니다. '예'라고 잘못 예측한 고객에게 제안을 제공하는 것보다 '아니요'라고 잘못 예측한 고객에게 제안을 확장하는 것을 놓치는 것이 더 위험할 수 있습니다. 다양한 FPR을 생성하기 위해 이러한 임계값을 변경하려면 새로운 혼동 행렬을 만들어야 합니다.

분류 알고리즘은 예측 확률이라는 연속 값을 반환합니다. 이러한 확률은 이진 분류를 위해 이진 값으로 변환되어야 합니다. 이진 분류 문제에서 임계값(또는 결정 임계값)은 확률을 간단한 이진 결정으로 이분화하는 값입니다. 0~1 범위의 정규화된 예상 확률의 경우 임계값은 기본적으로 0.5로 설정됩니다.

이진 분류 모델의 경우 유용한 평가 메트릭은 ROC(수신자 작동 특성) 곡선 아래 영역입니다. 모델 품질 보고서에는 TP 비율이 y축이고 FPR이 x축인 ROC 그래프가 포함되어 있습니다. 수신기 작동 특성(AUC-ROC) 아래 영역은 TPR과 FPR 간의 균형을 나타냅니다.

임계값을 사용하는 이진 분류 예측기를 사용하고 예측 확률이 포함된 레이블을 할당하여 ROC 곡선을 만듭니다. 모델의 임계값을 변경하면 두 가지 극단을 다룰 수 있습니다. TPR과 FPR이 모두 0이면 모든 항목에 "아니요"라는 레이블이 지정됨을 의미하고, TPR과 FPR이 모두 1이면 모든 항목에 "예"라는 레이블이 지정됨을 의미합니다.

절반은 "예"로 표시하고 나머지 절반은 "아니요"로 표시하는 무작위 예측 변수는 직선 대각선(빨간색 점선)인 ROC를 갖습니다. 이 선은 단위 정사각형을 두 개의 동일한 크기의 삼각형으로 자릅니다. 따라서 곡선 아래의 면적은 0.5입니다. AUC-ROC 값이 0.5라는 것은 예측자가 고객이 계좌를 개설할지 여부를 무작위로 추측하는 것보다 두 클래스를 구별하는 데 더 나을 것이 없음을 의미합니다. AUC-ROC 값이 1.0에 가까울수록 예측이 더 좋습니다. 0.5 미만의 값은 모델이 제공하는 답을 반대로 하여 모델이 실제로 더 나은 예측을 생성하도록 만들 수 있음을 나타냅니다. 최고의 모델의 경우 AUC는 0.93입니다.

정밀 리콜 곡선

모델 품질 보고서는 또한 ROC 곡선과 마찬가지로 다양한 임계값에 대한 정밀도(y축)와 재현율(x축)을 표시하기 위해 정밀 재현율(PR) 곡선을 만들었습니다. 정보 검색에 자주 사용되는 PR 곡선은 클래스 분포에 큰 왜곡이 있는 분류 문제에 대한 ROC 곡선의 대안입니다.

이러한 클래스 불균형 데이터세트의 경우 PR 곡선은 특히 소수 긍정 클래스가 다수 부정 클래스보다 더 흥미로울 때 유용합니다. 우리 모델의 정밀도는 0.53이고 재현율은 0.72입니다. 게다가, 최고의 상수 분류기는 '예'와 '아니요'를 구별할 수 없다는 점을 기억하세요. 매번 무작위 클래스 또는 상수 클래스를 예측합니다.

'예'와 '아니요' 사이의 균형 잡힌 데이터 세트에 대한 곡선은 0.5의 수평선이 되며 따라서 PR 곡선(AUPRC) 아래 영역은 0.5가 됩니다. PRC를 생성하기 위해 ROC 곡선과 동일한 방식으로 다양한 임계값에서 곡선에 다양한 모델을 그립니다. 우리 데이터의 경우 AUPRC는 0.61입니다.

모델 품질 보고서 출력

SageMaker AutoPilot 실험을 실행하기 전에 출력 경로를 지정할 때 지정한 Amazon S3 버킷에서 모델 품질 보고서를 찾을 수 있습니다. 보고서는 다음에서 확인할 수 있습니다. documentation/model_monitor/output/<autopilot model name>/ prefix PDF로 저장되었습니다.

결론

SageMaker Autopilot 모델 품질 보고서를 사용하면 SageMaker Autopilot 실험 결과를 쉽고 빠르게 확인하고 공유할 수 있습니다. SageMaker Autopilot을 사용하여 모델 훈련 및 조정을 쉽게 완료한 다음 생성된 보고서를 참조하여 결과를 해석할 수 있습니다. SageMaker Autopilot의 최고의 모델을 사용하게 되거나 다른 후보 모델을 사용하게 된다면 이러한 결과는 예비 모델 훈련 및 튜닝 작업을 평가하는 데 도움이 되는 출발점이 될 수 있습니다. SageMaker Autopilot 모델 품질 보고서는 코드를 작성하고 성능 평가 및 비교를 위한 시각적 자료를 생성하는 데 필요한 시간을 줄이는 데 도움이 됩니다.

데이터 과학 팀을 구성하지 않고도 오늘날 비즈니스 사례에 autoML을 쉽게 통합할 수 있습니다. 세이지메이커 선적 서류 비치 시작하는 데 도움이 되는 다양한 샘플을 제공합니다.

저자에 관하여

피터 정 AWS용 솔루션 아키텍트이며 고객이 데이터에서 통찰력을 찾도록 돕는 데 열정적입니다. 그는 공공 부문과 민간 부문 모두에서 조직이 데이터 기반 의사 결정을 내리는 데 도움이 되는 솔루션을 구축해 왔습니다. 그는 모든 AWS 인증과 XNUMX개의 GCP 인증을 보유하고 있습니다. 그는 커피, 요리, 활동적인 생활, 가족과 함께 시간을 보내는 것을 즐깁니다.

아룬 프라 사스 샨 카르 AWS의 인공 지능 및 기계 학습 (AI / ML) 전문 솔루션 아키텍트로서 글로벌 고객이 클라우드에서 AI 솔루션을 효과적이고 효율적으로 확장 할 수 있도록 지원합니다. 여가 시간에 Arun은 공상 과학 영화를보고 클래식 음악을 듣는 것을 즐깁니다.

알리 탁비리 AI/ML 전문 솔루션 아키텍트이며 기계 학습을 사용하여 AWS 클라우드에서 비즈니스 문제를 해결함으로써 고객을 돕습니다.

프라딥 레디 SageMaker Autopilot, SageMaker 자동 모델 튜너를 포함하는 SageMaker Low/No Code ML 팀의 수석 제품 관리자입니다. 직장 밖에서 Pradeep은 라즈베리 파이와 같은 손바닥 크기의 컴퓨터 및 기타 홈 자동화 기술을 사용하여 독서, 달리기 및 괴짜 작업을 즐깁니다.

타임 스탬프 : 2022 년 3 월 29 일

타임 스탬프 : 12월 14, 2022

플라톤에 의해 재발행

AWS Graviton으로 Amazon SageMaker 추론 비용 절감

이제 Amazon Bedrock의 기술 자료를 통해 단일 문서에 대한 질문이 단순화됩니다 | 아마존 웹 서비스

Mantium이 Amazon SageMaker에서 DeepSpeed를 사용하여 저지연 GPT-J 추론을 달성하는 방법

AWS CDK | 아마존 웹 서비스

Amazon Translate를 사용하여 여러 소스 언어 문서를 여러 대상 언어로 번역

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정