Build, Tune, And Deploy An End-to-end Churn Prediction Model Using Amazon SageMaker Pipelines

הועלה מחדש על ידי אפלטון

עוקב: 0

היכולת לחזות שלקוח מסוים נמצא בסיכון גבוה להסתלק, בזמן שעדיין יש זמן לעשות משהו בנידון, מייצגת מקור הכנסה פוטנציאלי ענק לכל עסק מקוון. בהתאם לתעשייה ולמטרה העסקית, הצהרת הבעיה יכולה להיות רב-שכבתית. להלן כמה יעדים עסקיים המבוססים על אסטרטגיה זו:

פוסט זה דן כיצד ניתן לתזמר מודל חיזוי נטישה מקצה לקצה על פני כל שלב: הכנת נתונים, ניסוי עם מודל בסיסי ואופטימיזציה של היפרפרמטרים (HPO), אימון וכוונון ורישום המודל הטוב ביותר. אתה יכול לנהל את שלך אמזון SageMaker אימון והסקת זרימות עבודה באמצעות סטודיו SageMaker של אמזון ו-SageMaker Python SDK. SageMaker מציעה את כל הכלים הדרושים ליצירת פתרונות מדעי נתונים באיכות גבוהה.

SageMaker מסייעת למדעני נתונים ומפתחים להכין, לבנות, להכשיר ולפרוס מודלים של למידת מכונה באיכות גבוהה (ML) במהירות על ידי איחוד של מערך רחב של יכולות שנבנו במיוחד עבור ML.

Studio מספק ממשק חזותי יחיד מבוסס אינטרנט שבו אתה יכול לבצע את כל שלבי הפיתוח של ML, ולשפר את הפרודוקטיביות של צוות מדעי הנתונים עד פי 10.

צינורות SageMaker של אמזון הוא כלי לבניית צינורות ML המנצל את האינטגרציה הישירה של SageMaker. עם Pipelines, אתה יכול להפוך בקלות את השלבים של בניית מודל ML, לקטלג מודלים ברישום המודלים ולהשתמש באחת מכמה תבניות הניתנות ב- SageMaker Projects כדי להגדיר אינטגרציה מתמשכת ואספקה מתמשכת (CI/CD) עבור הסוף ל- -סיים את מחזור החיים של ML בקנה מידה.

לאחר הכשרת הדגם, אתה יכול להשתמש אמזון סייג מייקר להבהיר לזהות ולהגביל הטיה ולהסביר תחזיות לבעלי עניין עסקיים. אתה יכול לשתף את הדוחות האוטומטיים האלה עם צוותים עסקיים וטכניים עבור מסעות פרסום יעד במורד הזרם או כדי לקבוע תכונות המבדילות מפתח לערך לכל החיים של הלקוח.

בסוף הפוסט הזה, אמור להיות לך מספיק מידע כדי להשתמש בהצלחה בתבנית מקצה לקצה זו באמצעות Pipelines כדי לאמן, לכוונן ולפרוס מקרה שימוש בניתוח חזוי משלך. ההוראות המלאות זמינות ב- GitHub ריפו.

בפתרון זה, נקודת הכניסה שלך היא סביבת הפיתוח המשולבת של Studio (IDE) לניסויים מהירים. Studio מציע סביבה לניהול חווית Pipelines מקצה לקצה. עם Studio, אתה יכול לעקוף את קונסולת הניהול של AWS עבור כל ניהול זרימת העבודה שלך. למידע נוסף על ניהול Pipelines מסטודיו, ראה הצג, עקוב והפעל את צינורות SageMaker ב-SageMaker Studio.

התרשים הבא ממחיש את הארכיטקטורה ברמה גבוהה של זרימת העבודה של מדעי הנתונים.

לאחר שתיצור את הדומיין של Studio, בחר את שם המשתמש שלך ובחר סטודיו פתוח. נפתח IDE מבוסס אינטרנט המאפשר לך לאחסן ולאסוף את כל הדברים שאתה צריך - בין אם זה קוד, מחברות, מערכי נתונים, הגדרות או תיקיות פרויקטים.

Pipelines משולבת ישירות עם SageMaker, כך שאינך צריך ליצור אינטראקציה עם שום שירותי AWS אחרים. אתה גם לא צריך לנהל משאבים כלשהם כי Pipelines הוא שירות מנוהל במלואו, מה שאומר שהוא יוצר ומנהל עבורך משאבים. למידע נוסף על רכיבי SageMaker השונים שהם שניהם ממשקי API עצמאיים של Python יחד עם רכיבים משולבים של Studio, ראה עמוד השירות של SageMaker.

עבור מקרה שימוש זה, אתה משתמש ברכיבים הבאים עבור תהליך פיתוח המודל האוטומטי לחלוטין:

צינור של SageMaker הוא סדרה של שלבים מחוברים המוגדרים על ידי הגדרת צינור JSON. הגדרת צינור זו מקודדת צינור באמצעות גרף א-ציקלי מכוון (DAG). DAG זה מספק מידע על הדרישות והקשרים בין כל שלב בצנרת שלך. המבנה של DAG של צינור נקבע על פי התלות בנתונים בין השלבים. תלות נתונים אלו נוצרות כאשר המאפיינים של פלט של שלב מועברים כקלט לשלב אחר.

עבור פוסט זה, מקרה השימוש שלנו הוא בעיית ML קלאסית שמטרתה להבין אילו אסטרטגיות שיווק שונות המבוססות על התנהגות צרכנים נוכל לאמץ כדי להגביר את שימור הלקוחות עבור חנות קמעונאית נתונה. התרשים הבא ממחיש את זרימת העבודה המלאה של ML עבור מקרה השימוש בחיזוי נטישה.

בואו נעבור בפירוט על תהליך הפיתוח המואץ של זרימת העבודה של ML.

כדי לעקוב אחרי הפוסט הזה, עליך להוריד ולשמור את ה מערך לדוגמה בברירת המחדל שירות אחסון פשוט של אמזון (Amazon S3) דלי המשויך להפעלת SageMaker שלך, ובדלי S3 לבחירתך. לניסויים מהירים או לבניית מודל בסיסי, אתה יכול לשמור עותק של מערך הנתונים תחת ספריית הבית שלך מערכת הקבצים של אמזון אלסטית (Amazon EFS) ופעל לפי מחברת Jupyter Customer_Churn_Modeling.ipynb.

צילום המסך הבא מציג את ערכת המדגם עם משתנה היעד כ-1, אם ההנחה היא שהלקוח פעיל, או 0 אחרת.

הפעל את הקוד הבא במחברת Studio כדי לעבד מראש את מערך הנתונים ולהעלות אותו לדלי S3 משלך:

import boto3
import pandas as pd
import numpy as np ## Preprocess the dataset
def preprocess_data(file_path):  df = pd.read_csv(file_path) ## Convert to datetime columns df["firstorder"]=pd.to_datetime(df["firstorder"],errors='coerce') df["lastorder"] = pd.to_datetime(df["lastorder"],errors='coerce') ## Drop Rows with null values df = df.dropna()    ## Create Column which gives the days between the last order and the first order df["first_last_days_diff"] = (df['lastorder']-df['firstorder']).dt.days ## Create Column which gives the days between when the customer record was created and the first order df['created'] = pd.to_datetime(df['created']) df['created_first_days_diff']=(df['created']-df['firstorder']).dt.days ## Drop Columns df.drop(['custid','created','firstorder','lastorder'],axis=1,inplace=True) ## Apply one hot encoding on favday and city columns df = pd.get_dummies(df,prefix=['favday','city'],columns=['favday','city']) return df ## Set the required configurations
model_name = "churn_model"
env = "dev"
## S3 Bucket
default_bucket = "customer-churn-sm-pipeline"
## Preprocess the dataset
storedata = preprocess_data(f"s3://{default_bucket}/data/storedata_total.csv")

עם מחברות Studio עם מחשוב אלסטי, כעת תוכל להפעיל בקלות מספר רב של עבודות הדרכה וכיוונון. למקרה שימוש זה, אתה משתמש באלגוריתם XGBoost המובנה של SageMaker וב-SageMaker HPO עם פונקציה אובייקטיבית כ "binary:logistic" ו "eval_metric":"auc".

def split_datasets(df): y=df.pop("retained") X_pre = df y_pre = y.to_numpy().reshape(len(y),1) feature_names = list(X_pre.columns) X= np.concatenate((y_pre,X_pre),axis=1) np.random.shuffle(X) train,validation,test=np.split(X,[int(.7*len(X)),int(.85*len(X))]) return feature_names,train,validation,test # Split dataset
feature_names,train,validation,test = split_datasets(storedata) # Save datasets in Amazon S3
pd.DataFrame(train).to_csv(f"s3://{default_bucket}/data/train/train.csv",header=False,index=False)
pd.DataFrame(validation).to_csv(f"s3://{default_bucket}/data/validation/validation.csv",header=False,index=False)
pd.DataFrame(test).to_csv(f"s3://{default_bucket}/data/test/test.csv",header=False,index=False)

התאמן, כוון ומצא את הדגם המועמד הטוב ביותר עם הקוד הבא:

# Training and Validation Input for SageMaker Training job
s3_input_train = TrainingInput( s3_data=f"s3://{default_bucket}/data/train/",content_type="csv")
s3_input_validation = TrainingInput( s3_data=f"s3://{default_bucket}/data/validation/",content_type="csv") # Hyperparameter used
fixed_hyperparameters = { "eval_metric":"auc", "objective":"binary:logistic", "num_round":"100", "rate_drop":"0.3", "tweedie_variance_power":"1.4"
} # Use the built-in SageMaker algorithm sess = sagemaker.Session()
container = sagemaker.image_uris.retrieve("xgboost",region,"0.90-2") estimator = sagemaker.estimator.Estimator( container, role, instance_count=1, hyperparameters=fixed_hyperparameters, instance_type="ml.m4.xlarge", output_path="s3://{}/output".format(default_bucket), sagemaker_session=sagemaker_session
) hyperparameter_ranges = { "eta": ContinuousParameter(0, 1), "min_child_weight": ContinuousParameter(1, 10), "alpha": ContinuousParameter(0, 2), "max_depth": IntegerParameter(1, 10),
}
objective_metric_name = "validation:auc"
tuner = HyperparameterTuner(
estimator, objective_metric_name,
hyperparameter_ranges,max_jobs=10,max_parallel_jobs=2) # Tune
tuner.fit({ "train":s3_input_train, "validation":s3_input_validation },include_cls_metadata=False) ## Explore the best model generated
tuning_job_result = boto3.client("sagemaker").describe_hyper_parameter_tuning_job( HyperParameterTuningJobName=tuner.latest_tuning_job.job_name
) job_count = tuning_job_result["TrainingJobStatusCounters"]["Completed"]
print("%d training jobs have completed" %job_count)
## 10 training jobs have completed ## Get the best training job from pprint import pprint
if tuning_job_result.get("BestTrainingJob",None): print("Best Model found so far:") pprint(tuning_job_result["BestTrainingJob"])
else: print("No training jobs have reported results yet.")

ML-4931-HyperParameterTuning

לאחר שתקבע קו בסיס, תוכל להשתמש באגים של SageMaker באמזון לניתוח מודלים לא מקוונים. Debugger היא יכולת בתוך SageMaker המספקת נראות אוטומטית לתהליך אימון המודל לניתוח בזמן אמת ולא מקוון. Debugger שומר את מצב המודל הפנימי במרווחים תקופתיים, אותם תוכל לנתח בזמן אמת במהלך האימון ולא מקוון לאחר השלמת האימון. עבור מקרה שימוש זה, אתה משתמש בכלי ההסבר SHAP (הסבר תוסף של SHapley) והשילוב המקורי של SHAP עם Debugger. עיין בדברים הבאים מחברה לניתוח מפורט.

עלילת הסיכום הבאה מסבירה את הקשרים החיוביים והשליליים של המנבאים עם משתנה היעד. לדוגמה, המשתנה העליון כאן, esent, מוגדר כמספר הודעות האימייל שנשלחו. העלילה הזו מורכבת מכל נקודות הנתונים במערך האימונים. כחול מציין גרירת הפלט הסופי למחלקה 0, וורוד מייצג מחלקה 1. תכונות עיקריות משפיעות מדורגות בסדר יורד.

ML-4931-Shapley-Plots

כעת תוכל להמשיך עם שלב הפריסה והניהול של זרימת העבודה של ML.

לפתח ולהפוך את זרימת העבודה לאוטומטית

נתחיל עם מבנה הפרויקט:

/customer-churn-model - שם הפרוייקט
/נתונים – מערך נתונים
/צינורות – קוד לרכיבי צנרת SageMaker
SageMaker_Pipelines_project.ipynb - מאפשר לך ליצור ולהפעיל את זרימת העבודה של ML
Customer_Churn_Modeling.ipynb – מחברת פיתוח מודל בסיסי

מבנה פרויקט ML-4931

תַחַת <project-name>/pipelines/customerchurn, אתה יכול לראות את הסקריפטים הבאים של Python:

Preprocess.py - משתלב עם SageMaker Processing להנדסת תכונות
Evaluate.py – מאפשר חישוב מדדי מודל, במקרה זה auc_score
Generate_config.py - מאפשר תצורה דינמית הדרושה לעבודת Clarify במורד הזרם לצורך הסבר המודל
Pipeline.py – קוד בתבנית עבור זרימת העבודה Pipelines ML

ML-4931-CodeStructure

בואו נעבור על כל שלב ב-DAG ואיך הם פועלים. השלבים דומים לשלב שבו הכנו את הנתונים לראשונה.

בצע מוכנות נתונים עם הקוד הבא:

# processing step for feature engineering sklearn_processor = SKLearnProcessor( framework_version="0.23-1", instance_type=processing_instance_type, instance_count=processing_instance_count, sagemaker_session=sagemaker_session, role=role, ) step_process = ProcessingStep( name="ChurnModelProcess", processor=sklearn_processor, inputs=[ ProcessingInput(source=input_data, destination="/opt/ml/processing/input"), ], outputs=[ ProcessingOutput(output_name="train", source="/opt/ml/processing/train", destination=f"s3://{default_bucket}/output/train" ), ProcessingOutput(output_name="validation", source="/opt/ml/processing/validation", destination=f"s3://{default_bucket}/output/validation"), ProcessingOutput(output_name="test", source="/opt/ml/processing/test", destination=f"s3://{default_bucket}/output/test") ], code=f"s3://{default_bucket}/input/code/preprocess.py", )

התאמן, כוון ומצא את הדגם המועמד הטוב ביותר:

# training step for generating model artifacts model_path = f"s3://{default_bucket}/output" image_uri = sagemaker.image_uris.retrieve( framework="xgboost", region=region, version="1.0-1", py_version="py3", instance_type=training_instance_type, ) fixed_hyperparameters = { "eval_metric":"auc", "objective":"binary:logistic", "num_round":"100", "rate_drop":"0.3", "tweedie_variance_power":"1.4" } xgb_train = Estimator( image_uri=image_uri, instance_type=training_instance_type, instance_count=1, hyperparameters=fixed_hyperparameters, output_path=model_path, base_job_name=f"churn-train", sagemaker_session=sagemaker_session, role=role, ) hyperparameter_ranges = { "eta": ContinuousParameter(0, 1), "min_child_weight": ContinuousParameter(1, 10), "alpha": ContinuousParameter(0, 2), "max_depth": IntegerParameter(1, 10), } objective_metric_name = "validation:auc"

אתה יכול להוסיף א שלב כוונון דגם (TuningStep) בצינור, אשר מפעיל אוטומטית עבודת כוונון היפרפרמטר (ראה את הקוד הבא). כוונון ההיפרפרמטרים מוצא את הגרסה הטובה ביותר של מודל על ידי הפעלת עבודות אימון רבות במערך הנתונים באמצעות האלגוריתם וטווחי הפרמטרים שציינת. לאחר מכן תוכל לרשום את הגרסה הטובה ביותר של המודל לרישום המודלים באמצעות השלב RegisterModel.

## Direct Integration for HPO step_tuning = TuningStep( name = "ChurnHyperParameterTuning", tuner = HyperparameterTuner(xgb_train, objective_metric_name, hyperparameter_ranges, max_jobs=2, max_parallel_jobs=2), inputs={ "train": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs[ "train" ].S3Output.S3Uri, content_type="text/csv", ), "validation": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs[ "validation" ].S3Output.S3Uri, content_type="text/csv", ), }, )

ML-4931-SM_PipelineHPO

לאחר כוונון המודל, בהתאם למדדי יעדי העבודה, תוכל להשתמש בלוגיקה מסועפת בעת תזמורת זרימת העבודה. עבור פוסט זה, השלב המותנה לבדיקת איכות הדגם הוא כדלקמן:

# condition step for evaluating model quality and branching execution cond_lte = ConditionGreaterThan( left=JsonGet( step=step_eval, property_file=evaluation_report, json_path="classification_metrics.auc_score.value" ), right=0.75, )

המודל המועמד הטוב ביותר נרשם לניקוד אצווה באמצעות שלב RegisterModel:

step_register = RegisterModel( name="RegisterChurnModel", estimator=xgb_train, model_data=step_tuning.get_top_model_s3_uri(top_k=0,s3_bucket=default_bucket,prefix="output"), content_types=["text/csv"], response_types=["text/csv"], inference_instances=["ml.t2.medium", "ml.m5.large"], transform_instances=["ml.m5.large"], model_package_group_name=model_package_group_name, model_metrics=model_metrics, )

כעת, כשהמודל מאומן, בואו נראה כיצד Clarify עוזרת לנו להבין על אילו תכונות המודלים מבססים את התחזיות שלהם. אתה יכול ליצור analysis_config.json קובץ באופן דינמי לכל זרימת עבודה באמצעות ה- generate_config.py תוֹעֶלֶת. אתה יכול לגרסות ולעקוב אחר קובץ התצורה לפי צינור runId ואחסן אותו באמזון S3 לעיון נוסף. אתחל את dataconfig ו modelconfig קבצים כדלקמן:

data_config = sagemaker.clarify.DataConfig( s3_data_input_path=f's3://{args.default_bucket}/output/train/train.csv', s3_output_path=args.bias_report_output_path, label=0, headers= ['target','esent','eopenrate','eclickrate','avgorder','ordfreq','paperless','refill','doorstep','first_last_days_diff','created_first_days_diff','favday_Friday','favday_Monday','favday_Saturday','favday_Sunday','favday_Thursday','favday_Tuesday','favday_Wednesday','city_BLR','city_BOM','city_DEL','city_MAA'], dataset_type="text/csv", ) model_config = sagemaker.clarify.ModelConfig( model_name=args.modelname, instance_type=args.clarify_instance_type, instance_count=1, accept_type="text/csv", ) model_predicted_label_config = sagemaker.clarify.ModelPredictedLabelConfig(probability_threshold=0.5) bias_config = sagemaker.clarify.BiasConfig( label_values_or_threshold=[1], facet_name="doorstep", facet_values_or_threshold=[0], )

לאחר הוספת שלב ההבהרה כעבודה לאחר עיבוד באמצעות sagemaker.clarify.SageMakerClarifyProcessor בצינור, אתה יכול לראות דוח מפורט של תכונה וניתוח הטיה לכל הפעלת צינור.

ML-4931-ClarifyReport

ML-4931-SM-UI-1

ML-4931-SM-UI-2

כשלב הסופי של זרימת העבודה של הצינור, אתה יכול להשתמש ב- TransformStep שלב לניקוד לא מקוון. עוברים ב transformer instance ו TransformInput עם batch_data פרמטר צינור שהוגדר קודם לכן:

# step to perform batch transformation transformer = Transformer( model_name=step_create_model.properties.ModelName, instance_type="ml.m5.xlarge", instance_count=1, output_path=f"s3://{default_bucket}/ChurnTransform" ) step_transform = TransformStep( name="ChurnTransform", transformer=transformer, inputs=TransformInput(data=batch_data,content_type="text/csv") )

לבסוף, אתה יכול להפעיל צינור חדש על ידי בחירה התחל הוצאה להורג בממשק Studio IDE.

ML-4931-SMPipeline-Execution

אתה יכול גם לתאר הפעלת צינור או להתחיל את הצינור באמצעות הפעולות הבאות מחברה. צילום המסך הבא מציג את הפלט שלנו.

ML-4931-SMPipeline-DescribeExecution

אתה יכול לתזמן את ריצות בניית המודל של SageMaker שלך באמצעות אמזון EventBridge. צינורות בניית מודל SageMaker נתמכים כמטרה באמזון EventBridge. זה מאפשר לך להפעיל את הצינור שלך על סמך כל אירוע באוטובוס האירועים שלך. EventBridge מאפשר לך להפוך את ריצות הצינור שלך לאוטומטיות ולהגיב אוטומטית לאירועים כגון עבודת אימון או שינויים במצב נקודת הקצה. אירועים כוללים קובץ חדש שהועלה לדלי S3 שלך, שינוי בסטטוס של נקודת הקצה של SageMaker שלך עקב סחיפה, ו שירות התראה פשוט של אמזון (Amazon SNS) נושאים.

סיכום

פוסט זה הסביר כיצד להשתמש ב-SageMaker Pipelines עם תכונות מובנות אחרות של SageMaker ואלגוריתם XGBoost כדי לפתח, לחזור ולפרוס את המודל המועמד הטוב ביותר לחיזוי נטישה. להנחיות ליישום פתרון זה, עיין ב- GitHub ריפו. אתה יכול גם לשכפל ולהרחיב את הפתרון הזה עם מקורות נתונים נוספים להכשרת מודלים מחדש. אנו ממליצים לך לפנות ולדון במקרים של שימוש ב-ML עם מנהל חשבון AWS שלך.

הפניות נוספות

למידע נוסף, עיין במשאבים הבאים:

על הכותבים

גאיאטרי גנקוטה הוא מהנדס למידת מכונה עם שירותים מקצועיים של AWS. היא נלהבת בפיתוח, פריסה והסבר של פתרונות AI/ML בתחומים שונים. לפני תפקיד זה, היא הובילה יוזמות מרובות כמדען נתונים ומהנדס ML עם חברות גלובליות מובילות בתחום הפיננסי והקמעונאי. היא בעלת תואר שני במדעי המחשב המתמחה במדעי נתונים מאוניברסיטת קולורדו, בולדר.

שריתה ג'ושי הוא מדען נתונים בכיר עם שירותים מקצועיים של AWS המתמקד בתמיכה בלקוחות בכל תעשיות כולל קמעונאות, ביטוח, ייצור, נסיעות, מדעי החיים, מדיה ובידור ושירותים פיננסיים. יש לה ניסיון של מספר שנים כיועצת בייעוץ ללקוחות בתעשיות ובתחומים טכניים רבים, כולל AI, ML, אנליטיקה ו-SAP. כיום, היא עובדת בלהט עם לקוחות כדי לפתח וליישם פתרונות למידת מכונה ו-AI בקנה מידה.