Impact Of Categorical Encodings On Anomaly Detection Methods

הועלה מחדש על ידי אפלטון

עוקב: 0

מבוא

עולם ביקורת הנתונים יכול להיות מורכב, עם אתגרים רבים שצריך להתגבר עליהם. אחד האתגרים הגדולים ביותר הוא טיפול בתכונות קטגוריות תוך כדי התמודדות עם מערכי נתונים. במאמר זה נעמיק בעולם של נתוני ביקורת, זיהוי אנומליות והשפעת קידוד תכונות קטגוריות על מודלים.

אחד האתגרים העיקריים הקשורים לאיתור חריגות לביקורת נתונים הוא טיפול בתכונות קטגוריות. קידוד תכונות קטגוריות הוא חובה מכיוון שהמודלים אינם יכולים לפרש קלט טקסט. בדרך כלל, זה נעשה באמצעות קידוד Label או קידוד One Hot. עם זאת, במערך נתונים גדול, קידוד One-hot יכול להוביל לביצועי מודל גרועים עקב קללת הממדיות.

מטרות למידה

להבין את הרעיון של ביקורת נתונים ואת האתגר
להעריך שיטות שונות של זיהוי אנומליות עמוק ללא פיקוח.
להבין את ההשפעה של קידוד תכונות קטגוריות על מודלים המשמשים לזיהוי חריגות בנתוני ביקורת.

מאמר זה פורסם כחלק מה- בלוגאת מדע הנתונים.

תוכן העניינים

מה זה אואטה?
מהי זיהוי חריגות?
האתגרים העיקריים הניצבים בפניהם בעת ביקורת נתונים
ביקורת מערכי נתונים לזיהוי אנומליות
קידוד של תכונות קטגוריות
קידודים קטגוריים
מודלים לזיהוי אנומליות ללא פיקוח
כיצד קידוד תכונות קטגוריות משפיע על המודלים?
8.1 ייצוג t-SNE של מערך הנתונים של ביטוח רכב
8.2 ייצוג t-SNE של מערך הנתונים של ביטוח רכב
8.3 ייצוג t-SNE של מערך התביעות לרכב
סיכום

ב- Auditing Data?

נתוני ביקורת יכולים לכלול יומנים, תביעות ביטוח ונתוני פריצה למערכות מידע; במאמר זה, הדוגמאות המוצגות הן תביעות ביטוח של כלי רכב. ניתן להבחין בין תביעות ביטוח לבין מערכי נתונים לזיהוי חריגות, למשל, KDD, במספר גדול יותר של מאפיינים קטגוריים.

מאפיינים קטגוריים הם דיסקוטים בנתונים שלנו שיכולים להיות מסוג מספר שלם או אופי. תכונות מספריות הן תכונות רציפות בנתונים שלנו שתמיד מוערכות ממש. מערכי נתונים עם מאפיינים מספריים פופולריים בקהילת זיהוי חריגות כמו נתוני הונאה בכרטיס אשראי. רוב מערכי הנתונים הזמינים לציבור מכילים פחות מאפיינים קטגוריים מנתוני תביעות ביטוח. מאפיינים קטגוריים הם יותר במספר מאשר מאפיינים מספריים במערך הנתונים של תביעות ביטוח.

תביעת ביטוח כוללת תכונות כמו דגם, מותג, הכנסה, עלות, הנפקה, צבע וכו'. מספר המאפיינים הקטגוריים גבוה יותר בנתוני ביקורת מאשר במערך הנתונים של כרטיסי אשראי ו-KDD. מערכי נתונים אלה הם אמות מידה בשיטות זיהוי אנומליות ללא פיקוח. כפי שניתן לראות בטבלה שלהלן, למערך הנתונים של תביעות ביטוח יש מאפיינים קטגוריים יותר, שחשובים להבנת ההתנהגות של נתונים הונאה.

מערכי הביקורת המשמשים להערכת ההשפעה של קידודים קטגוריים הם ביטוח רכב, ביטוח רכב ותביעות רכב.

מהי זיהוי חריגות?

אנומליה היא תצפית הממוקמת הרחק מנתונים רגילים במערך נתונים לפי מרחק מסוים (Threshold). מבחינת נתוני ביקורת, אנו מעדיפים את המונח נתונים הונאה. זיהוי חריגות מבחין בין נתונים רגילים לנתונים הונאה באמצעות למידת מכונה או מודל למידה עמוקה. שיטות שונות יכול לשמש לזיהוי חריגות, כמו הערכת צפיפות, שגיאת שחזור ושיטות סיווג.

הערכת צפיפות – שיטות אלו מעריכות את התפלגות הנתונים הנורמלית ומסווגות נתונים חריגים אם הם לא נדגמו מההתפלגות הנלמדת.
שגיאת שחזור - שיטות מבוססות שגיאות שחזור מבוססות על העיקרון שניתן לשחזר נתונים רגילים עם הפסדים קטנים יותר מאשר נתונים חריגים. ככל שאובדן השחזור גבוה יותר מגדיל את הסיכוי שהנתונים הם חריגים.
שיטות סיווג - שיטות סיווג כמו יער אקראיניתן להשתמש ב-, Isolation Forest, One Class – Support Vector Machines ו- Local Outlier Factors לזיהוי אנומליות. סיווג בגילוי חריגות כולל זיהוי של אחד המחלקות כאנומליה. ובכל זאת, המחלקות מחולקות לשתי קבוצות (0 ו-1) בתרחיש הרב-מחלקות, והמחלקה עם פחות נתונים היא המחלקה החריגה.

הפלט של השיטות לעיל הוא ציוני אנומליה או שגיאות שחזור. לאחר מכן עלינו להחליט על סף, לפיו אנו מסווגים את הנתונים החריגים.

האתגרים העיקריים הניצבים בפניהם בעת ביקורת נתונים

טיפול בתכונות קטגוריות: קידוד תכונות קטגוריות הוא חובה מכיוון שהמודל אינו יכול לפרש קלט טקסט. אז, הערכים מקודדים בקידוד Label או בקידוד One Hot. אבל במערך נתונים גדול, קידוד חם אחד הופך את הנתונים למרחב רב ממדי על ידי הגדלת מספר התכונות. המודל מתפקד גרוע בשל קללת המימד.
בחירת סף לסיווג: אם הנתונים אינם מסומנים, קשה להעריך את ביצועי המודל מכיוון שאיננו יודעים את מספר החריגות הקיימות במערך הנתונים. הידע הקודם על מערך הנתונים מקל על קביעת הסף. נניח שיש לנו 5 מתוך 10 דגימות חריגות בנתונים שלנו. אז, אנחנו יכולים לבחור את הסף בציון 50 אחוזון.
מערכי נתונים ציבוריים: רוב מערכי הביקורת הם חסויים מכיוון שהם שייכים לחברות ארגוניות ומכילים מידע רגיש ואישי. דרך אפשרית אחת לצמצם בעיות סודיות היא אימון באמצעות מערכי נתונים סינתטיים (תביעות רכב).

ביקורת מערכי נתונים לזיהוי אנומליות

תביעות ביטוח לרכב כוללות מידע על מאפייני הרכב, כמו דגם, מותג, מחיר, שנה וסוג הדלק. הוא כולל מידע על הנהג, תאריך לידה, מין ומקצוע. בנוסף, התביעה עשויה לכלול מידע על העלות הכוללת של התיקון. מערכי הנתונים המשמשים במאמר זה הם כולם מתחום יחיד, אך הם משתנים במספר התכונות ובמספר המופעים.

מערך הנתונים של Vehicle Claims הוא גדול, מכיל למעלה מ-250,000 שורות, ולתכונות הקטגוריות שלו יש קרדינליות של 1171. בשל גודלו הגדול, מערך הנתונים הזה סובל מקללת הממדיות.
מערך הנתונים של ביטוח רכב הוא בגודל בינוני, עם 15,420 שורות ו-151 ערכים קטגוריים ייחודיים. זה הופך אותו לפחות נוטה לסבול מקללת הממדיות.
מערך הנתונים של ביטוח רכב הוא קטן, עם תוויות ו-25% דגימות חריגות, והוא מכיל מספר דומה של מאפיינים מספריים וקטגוריים. עם 169 קטגוריות ייחודיות, הוא אינו סובל מקללת הממדיות.

קידוד של תכונות קטגוריות

קידודים שונים של ערכים קטגוריים

קידוד תווית – בקידוד תווית, הערכים הקטגוריים מוחלפים בערכים מספריים שלמים בין 1 למספר הקטגוריות. קידוד תווית מייצג את הקטגוריות בצורה המיועדת לערכים סידוריים. ובכל זאת, כאשר התכונות הן נומינליות, הייצוג שגוי מכיוון שהערכים הקטגוריים אינם תואמים לסדר מסוים.
לדוגמה, אם יש לנו קטגוריות כמו אוטומטי, היברידי, ידני וחצי אוטומטי בתכונה, קידוד התוויות הופך את הערכים האלה ל-{1: אוטומטי, 2: היברידי, 3: ידני, 4:חצי אוטומטי}. ייצוג זה אינו מספק מידע על הערכים הקטגוריים, אך ייצוג כגון {0: נמוך, 1: בינוני, 2: גבוה} מספק ייצוג ברור מכיוון שלמשתנה התכונה Low מוקצה ערך מספרי נמוך יותר. לכן, קידוד תווית עדיף עבור ערכים סידוריים אך חסר ערך עבור ערכים נומינליים.
קידוד חם אחד – קידוד חם אחד משמש כדי לטפל בבעיה של ערכי קידוד נומינליים, אשר הופך כל ערך קטגורי לתכונה נפרדת במערך הנתונים המורכב מערכים בינאריים. לדוגמה, במקרה של ארבע קטגוריות שונות המקודדות כ-{1, 2, 3, 4}, קידוד One Hot ייצור תכונות חדשות כגון {Automatic: [1,0,0,0], Hybrid: [0,1,0,0 ,0,0,1,0], ידני: [0,0,0,1], חצי אוטומטי: [XNUMX]}.
המימד של מערך הנתונים תלוי ישירות במספר הקטגוריות הקיימות במערך הנתונים. כתוצאה מכך, קידוד One Hot יכול להוביל לקללת הממדיות, שהיא חסרון של שיטת קידוד זו.
קידוד GEL - קידוד GEL הוא טכניקת הטמעה שניתן להשתמש בה בשיטות למידה מפוקחות ובלתי מפוקחות. הוא מבוסס על העיקרון של קידוד One Hot וניתן להשתמש בו כדי להקטין את הממדיות של תכונות קטגוריות שקודדו באמצעות קידוד One Hot.
הטמעת שכבה - הטבעות מילים מספקות דרך להשתמש בייצוג קומפקטי וצפוף שבו למילים דומות קידודים דומים. הטבעה היא וקטור צפוף של ערכי נקודה צפה שהם פרמטרים הניתנים לאימון. הטמעות מילים יכולות לנוע בין 8 מימדים (עבור מערכי נתונים קטנים) ל-1024 מימדיים (עבור מערכי נתונים גדולים).
הטבעה בממדים גבוהים יותר יכולה ללכוד קשרים מפורטים יותר בין מילים, אבל היא דורשת יותר נתונים כדי ללמוד. שכבת ההטמעה היא טבלת חיפוש הממירה כל מילה הקיימת במטריצה לוקטור בגודל מסוים.

מודלים לזיהוי אנומליות ללא פיקוח

בעולם האמיתי, נתונים אינם מסומנים ברוב המקרים, ונתוני תיוג הם יקרים וגוזלים זמן. לכן, נשתמש במודלים ללא פיקוח להערכות שלנו.

SOM - מפת הארגון העצמי (SOM) היא שיטת למידה תחרותית שבה משקלם של הנוירונים מתעדכן באופן תחרותי ולא באמצעות למידה של התפשטות לאחור. SOM מורכב ממפה של נוירונים, שלכל אחד מהם וקטור משקל בגודל זהה לזה של וקטור הקלט. וקטור המשקל מאותחל עם משקלים אקראיים לפני תחילת האימון. במהלך האימון, כל קלט מושווה לנוירונים של המפה בהתבסס על מדד מרחק (למשל, מרחק אוקלידי) והוא ממופה ליחידת ההתאמה הטובה ביותר (BMU), שהיא הנוירון עם המרחק המינימלי לוקטור הקלט.
המשקולות של ה-BMU מתעדכנות עם המשקולות של וקטור הקלט, והנוירונים השכנים מתעדכנים על סמך רדיוס השכונה (סיגמה). מכיוון שהנוירונים מתחרים זה בזה כדי להיות היחידה המתאימה ביותר, תהליך זה ידוע כלמידה תחרותית. בסופו של דבר, הנוירונים עבור דגימות נורמליות קרובים יותר מאלה החריגים. ציוני אנומליה מוגדרים על ידי שגיאת הקוונטיזציה, שהיא ההפרש בין מדגם הקלט לבין המשקולות של יחידת ההתאמה הטובה ביותר. שגיאת קוונטיזציה גבוהה יותר מצביעה על הסתברות גבוהה יותר שהמדגם הוא אנומליה.
DAGMM – מודל ה-Deep Autoencoding Gaussian Mixture Model (DAGMM) הוא שיטת הערכת צפיפות שמניחה שהחריגות נמצאות באזור בעל הסתברות נמוכה. הרשת מחולקת לשני חלקים: רשת דחיסה, המשמשת להקרנת נתונים לממדים נמוכים יותר באמצעות מקודד אוטומטי, ורשת אומדן, המשמשת להערכת הפרמטרים של מודל התערובת גאוסית. DAGMM מעריכה k מספר של תערובות גאוסיות, כאשר k יכול להיות כל מספר מ-1 עד N (מספר נקודות הנתונים), וההנחה היא שנקודות נורמליות נמצאות באזור בצפיפות גבוהה, כלומר ההסתברות להידגמה מ- תערובת גאוס גבוהה יותר עבור נקודות רגילות מאשר עבור דגימות חריגות. ציוני אנומליה מוגדרים על ידי האנרגיה המשוערת של המדגם.
RSRAE – שכבת שחזור השטח החזקה לזיהוי אנומליות ללא פיקוח היא שיטת שגיאות שחזור המקרינה תחילה את הנתונים למימד נמוך יותר באמצעות מקודד אוטומטי. הייצוג הסמוי נתון לאחר מכן להקרנה אורתוגונלית על תת-מרחב ליניארי שעמיד בפני חריגים. לאחר מכן המפענח בונה מחדש את הפלט מתת-המרחב הליניארי. בשיטה זו, שגיאת שחזור גבוהה יותר מצביעה על הסתברות גבוהה יותר שהמדגם הוא אנומליה.
SOM-DAGMM- מפה ארגונית עצמית (SOM) - Deep Autoencoding Gaussian Mixture Model (DAGMM) הוא גם מודל הערכת צפיפות. כמו DAGMM, הוא גם מעריך את התפלגות ההסתברות של נקודות נתונים נורמליות ומסווג נקודת נתונים כאנומליה אם יש לה סבירות נמוכה להידגם מההתפלגות הנלמדת. ההבדל העיקרי בין SOM-DAGMM ל-DAGMM הוא ש-SOM-DAGMM כולל את הקואורדינטות המנורמלות של SOM עבור מדגם הקלט, המספק את המידע הטופולוגי החסר במקרה של DAGMM לרשת האומדן. המטרה דומה גם ל-DAGMM בכך שציוני האנומליה מוגדרים על ידי האנרגיה המשוערת של המדגם, ואנרגיה נמוכה מצביעה על הסתברות גבוהה יותר של המדגם כאנומליה.

לאחר מכן, נתייחס לאתגר של טיפול בתכונות קטגוריות.

כיצד קידוד תכונות קטגוריות משפיע על המודלים?

כדי להבין את ההשפעה של קידודים שונים על מערכי נתונים, נשתמש ב-t-SNE כדי להמחיש את הייצוגים הנמוכים של הנתונים עבור קידודים שונים. t-SNE מקרין נתונים במימד גבוה לתוך מרחב בעל מימד נמוך יותר, מה שמקל על הדמיה. על ידי השוואת הדמיות t-SNE ותוצאות מספריות של קידודים שונים של אותו מערך נתונים, ההבדל נצפה בייצוגים המתקבלים ובהבנה של השפעת הקידוד על מערך הנתונים.

ייצוג t-SNE של מערך הנתונים של ביטוח רכב

ייצוג t-SNE של מערך הנתונים של ביטוח רכב

הנתונים קרובים יותר זה לזה מכיוון שמספר השורות גבוה יותר מאשר במערך הנתונים של ביטוח רכב. זה הופך להיות קשה להפריד עם מימדיות מוגברת בקידוד One Hot.
קידוד GEL עדיף על קידוד One Hot בכל המקרים מלבד DAGMM.

ייצוג t-SNE של מערך התביעות לרכב

הנתונים קשורים בחוזקה בכל המקרים, מה שמקשה על הפרדה עם ממדיות מוגברת. זו אחת הסיבות לביצועים ירודים של דגמים עקב הגברת הממדיות.
SOM עולה על כל המודלים האחרים עבור מערך הנתונים הזה. ובכל זאת, שכבת ההטמעה מתאימה יותר ברוב המקרים, מה שמאפשר לנו אלטרנטיבה לקידוד תכונות קטגוריות לאיתור חריגות.

סיכום

מאמר זה מציג סקירה קצרה של נתוני ביקורת, זיהוי אנומליות וקידודים קטגוריים. חשוב להבין שהטיפול בתכונות קטגוריות בביקורת נתונים הוא מאתגר. על ידי הבנת ההשפעה של קידוד התכונות על מודלים, אנו יכולים לשפר את דיוק זיהוי החריגות במערך הנתונים. הנקודות העיקריות מהמאמר הזה הן:

ככל שגודל הנתונים גדל, חשוב להשתמש בגישות קידוד חלופיות עבור תכונות קטגוריות, כמו קידוד GEL ושכבות Embedding, מכיוון שקידוד One Hot אינו מתאים.
מודל אחד לא עובד עבור כל מערכי הנתונים. עבור מערכי נתונים טבלאיים, ידע בתחום הוא חשוב ביותר.
בחירת שיטת הקידוד תלויה בבחירת הדגם.

הקוד להערכת מודלים זמין ב GitHub.

המדיה המוצגת במאמר זה אינה בבעלות Analytics Vidhya והיא משמשת לפי שיקול דעתו של המחבר.