המדריך של אידיוט למטריקס מדויק, זיכרון ובלבול

המדריך של אידיוט למטריקס מדויק, זיכרון ובלבול

צומת המקור: 1903112

מודלים של רגרסיה

RMSE הוא מדד טוב להעריך כיצד א למידת מכונה הדגם מתפקד.

אם RMSE גבוה משמעותית בערכת המבחנים מאשר במערך האימונים - יש סיכוי טוב שהמודל מתאים יותר מדי. (ודא שהרכבת ומערך המבחן הם מאותה/דומה להפצה)

נחשו מה, הערכת מודל סיווג אינה כל כך פשוטה

אבל למה?

אתה בטח תוהה ״אי אפשר פשוט להשתמש דיוק של הדגם כמדד הגביע הקדוש?'

הדיוק חשוב מאוד, אבל אולי זה לא המדד הטוב ביותר כל הזמן. בואו נסתכל על הסיבה עם דוגמה -:

נניח שאנו בונים מודל אשר חוזה אם הלוואה בנקאית תפרע או לא

(מדד S&P/Experian Consumer Credit Default Composite דיווח על שיעור מחדל של 0.91%)

בוא נעשה מודל דמה שתמיד חוזה שהלוואה לא תפרע. נחשו מה יהיה הדיוק של הדגם הזה?

===> 99.10%

מרשים, נכון? ובכן, ההסתברות שבנק יקנה את המודל הזה היא אפס מוחלט. 😆

אמנם לדגם שלנו יש דיוק מדהים, אבל זו דוגמה ראויה שבה דיוק הוא בהחלט לא המדד הנכון.

אם לא דיוק, מה עוד?

יחד עם הדיוק, יש עוד המון שיטות להערכת הביצועים של מודל סיווג

לפני שנתקדם, נבחן כמה מונחים שיחזרו על עצמם כל הזמן ועשויים להפוך את כל העניין למבוך בלתי מובן אם לא יובנו בבירור.

נכון נכון?

טוב, לא אותה הרגשה אחרי שראיתי את כל אלה 🤔

אבל אז כמו שאומרים - לכל ענן יש בטנה כסופה

בואו נבין את זה אחד אחד, החל מהמונחים הבסיסיים.

החיובים והשליליים - TP, TN, FP, FN

אני משתמש בפריצה הזו כדי לזכור את המשמעות של כל אחד מאלה בצורה נכונה.

(בעיית סיווג בינארי. דוגמה - חיזוי אם הלוואה בנקאית תהיה ברירת מחדל)

אז מה המשמעות של א שלילי אמיתי?

שלילי אמיתי: צדקנו כשחזינו שהלוואה לא תגיע למחדל.

חיובי כוזב: חזינו בטעות שהלוואה תגיע למחדל.

בואו נחזק את מה שלמדנו

עוד תמונה שחותמת את זה במוחי.

כמו עכשיו אנחנו מכירים את TP, TN, FP, FN - יהיה קל מאוד להבין מהי מטריצת בלבול.

זוהי טבלת סיכום שמראה עד כמה המודל שלנו טוב בחיזוי דוגמאות של מחלקות שונות. הצירים כאן הם תוויות חזויות לעומת תוויות בפועל.

מטריצת בלבול עבור מודל סיווג החוזה אם הלוואה תפרע או לא.

דיוק - נקרא גם ערך ניבוי חיובי
היחס בין התחזיות החיוביות הנכונות לסך החיובים החזויים.

זכור - נקרא גם רגישות, הסתברות לזיהוי, שיעור חיובי אמיתי

היחס בין התחזיות החיוביות הנכונות לסך הדוגמאות החיוביות.

הבנה
להבין דיוק ו להיזכר, ניקח דוגמה של חיפוש. חשבו על תיבת החיפוש בדף הבית של אמזון.

השמיים דיוק הוא שיעור התוצאות הרלוונטיות ברשימת כל תוצאות החיפוש שהוחזרו. ה זוכר הוא היחס בין התוצאות הרלוונטיות שהחזיר מנוע החיפוש לבין המספר הכולל של התוצאות הרלוונטיות שניתן היה להחזיר.

במקרה שלנו של חיזוי אם הלוואה תגיע לכשל - עדיף לקבל ריקול גבוה מכיוון שהבנקים לא רוצים להפסיד כסף ויהיה רעיון טוב להבהיל את הבנק גם אם יש ספק קל לגבי מחדל.
דיוק נמוך, במקרה זה, עשוי להיות בסדר.

הערות: לרוב, עלינו לבחור אחד על פני אחר. זה כמעט בלתי אפשרי לקבל גם דיוק גבוה וגם ריקול.

אם כבר מדברים על דיוק, המדד האהוב עלינו!

דיוק מוגדר כיחס בין הדוגמאות החזויות בצורה נכונה על ידי סך הדוגמאות.

במונחים של מטריצת בלבול היא ניתנת על ידי:

זכור, דיוק הוא מדד שימושי מאוד כאשר כל השיעורים חשובים באותה מידה. אבל זה אולי לא המקרה אם אנחנו צופים אם לחולה יש סרטן. בדוגמה זו, אנחנו כנראה יכולים לסבול FPs אבל לא FNs.

גרף עקומת ROC (עקומת מאפיין תפעול מקלט) מציג את הביצועים של מודל סיווג בכל ספי הסיווג.

(שימוש בספים: נניח, אם אתה רוצה לחשב TPR ו-FPR עבור הסף השווה ל-0.7, אתה מיישם את המודל על כל דוגמה, מקבל את הציון, ואם הציון גבוה מ-0.7 או שווה ל-XNUMX, אתה מנבא את החיובי מחלקה; אחרת, אתה חוזה את המחלקה השלילית)

הוא משרטט 2 פרמטרים:

  • שיעור חיובי אמיתי (לִזכּוֹר)

  • שיעור חיובי כוזב

מציין איזה אחוז מהאנשים שלא היו ברירת מחדל זוהו כמחדלים.

תחזיות לסך החיובים החזויים.

עקומת ROC טיפוסית.

הורדת סף הסיווג מסווגת יותר פריטים כחיוביים, ובכך מגדילה הן חיוביות כוזבות והן חיוביות אמיתיות.

AUC מסמל אזור מתחת לעקומת ה-ROC. הוא מספק מדד מצטבר של ביצועים על פני כל ספי הסיווג האפשריים.

ככל שה- שטח מתחת לעיקול ROC (AUC), כך המסווג טוב יותר. למסווג מושלם יהיה AUC של 1. בדרך כלל, אם המודל שלך מתנהג טוב, אתה משיג מסווג טוב על ידי בחירת הערך של הסף שנותן ל-TPR קרוב ל-1 תוך שמירה על FPR בקרבת 0.

בפוסט זה ראינו כיצד ניתן להעריך ביעילות מודל סיווג, במיוחד במצבים שבהם הסתכלות על דיוק עצמאי אינו מספיק. הבנו מושגים כמו TP, TN, FP, FN, Precision, Recall, מטריצת בלבול, ROC ו-AUC. אני מקווה שזה הבהיר את הדברים!

 
מְקוֹרִי. פורסם מחדש באישור.

 
 
ויפול ג'יין הוא מדען נתונים עם התמקדות בלמידת מכונה עם ניסיון בבניית מוצרי נתונים מקצה לקצה מרעיונות ועד ייצור.

בול זמן:

עוד מ KDnuggets