תמונה על ידי רון לאך
מערכי נתונים בעולם האמיתי הם לעתים רחוקות מושלמים ולעתים קרובות מגיעים עם ערכים חסרים או מידע חלקי. תקלות אלו עשויות לנבוע מהאלמנט האנושי (סקרים שגויים או לא מולאו) או טכנולוגיה (חיישנים לא תקינים). לא משנה מה המקרה, לעתים קרובות אתה נשאר עם ערכים או מידע חסרים.
כמובן שזה יוצר בעיה. ללא הערכים החסרים, כל מערך הנתונים עלול להיחשב בלתי שמיש. אבל מכיוון שנדרש זמן רב, מאמץ ו(במקרים רבים) כסף לרכוש נתונים באיכות גבוהה, ייתכן שסילוק הנתונים השגויים והתחיל מחדש לא יהיו אפשרויות ברות קיימא. במקום זאת, עלינו למצוא דרך לעקוף או להחליף את הערכים החסרים הללו. כאן נכנסת לתמונה זקיפת הנתונים.
מדריך זה ידון מהי זקיפת נתונים וכן בסוגי הגישות שבהן הוא תומך.
למרות שאיננו יכולים להחליף נתונים חסרים או פגומים, ישנן שיטות שאנו יכולים להשתמש כדי לאפשר למערך הנתונים להיות עדיין שמיש. זקיפת נתונים היא אחת הטכניקות האמינות ביותר להשגת זאת. עם זאת, ראשית עלינו לזהות איזה סוג של נתונים חסר ומדוע.
בסטטיסטיקה ובמדעי הנתונים, ישנם שלושה סוגים עיקריים של נתונים חסרים:
- חסר באקראי (MAR), שבו הנתונים החסרים קשורים למשתנה ובסופו של דבר ניתן לצפות בהם או להתחקות אחריהם. במקרים רבים, זה יכול לספק לך מידע נוסף על הנתונים הדמוגרפיים או נושאי הנתונים. לדוגמה, אנשים בגיל מסוים עשויים להחליט לדלג על שאלה בסקר או להסיר מערכות מעקב מהמכשירים שלהם בזמנים מסוימים.
- חסר לגמרי באקראי (MCAR), שם מידע חסר לא ניתן לצפות או לעקוב אחר משתנה. כמעט בלתי אפשרי להבחין מדוע הנתונים חסרים.
- חסרים נתונים שאינם חסרים באקראי (NMAR), כאשר הנתונים החסרים קשורים למשתנה בעל עניין. ברוב המקרים, ניתן להתעלם מהנתונים החסרים הללו. NMAR יכול להתרחש כאשר לוקח סקר מדלג על שאלה שאינה רלוונטית לו.
התמודדות עם נתונים חסרים
נכון לעכשיו, יש לך שלוש אפשרויות עיקריות להתמודד עם ערכי נתונים חסרים:
- מחיקה
- זקיפה
- התעלם
במקום לזרוק את כל מערך הנתונים, אתה יכול להשתמש במה שמכונה מחיקה ברשימה. זה כולל מחיקת רשומות עם מידע או ערכים חסרים. היתרון העיקרי של מחיקה ברשימה הוא שהיא תומכת בכל שלוש הקטגוריות של נתונים חסרים.
עם זאת, הדבר עלול לגרום לאובדן נתונים נוסף. מומלץ להשתמש רק מחיקה ברשימה במקרים שבהם יש מספר גדול יותר של ערכים חסרים (נצפים) מאשר ערכים נוכחים (נצפים), בעיקר בגלל שאין מספיק נתונים כדי להסיק או להחליף אותם.
אם הנתונים החסרים שנצפו אינם חשובים (ניתן להתעלם מהם) ורק מספר ערכים חסרים, אתה יכול להתעלם מהם ולעבוד עם מה שיש לך. עם זאת, זו לא תמיד אפשרות. זקיפת נתונים מציעה פתרון שלישי ובעל פוטנציאל סביר יותר.
זקיפת נתונים כרוכה בהחלפת ערכים נעדרים כך שקבוצות נתונים עדיין יהיו ניתנות לשימוש. קיימות שתי קטגוריות של גישות זקיפת נתונים:
- יחיד
- מְרוּבֶּה
זקיפה ממוצעת (MI) היא אחת הצורות המפורסמות ביותר של זקיפת נתונים בודדים.
זקיפה ממוצעת (MI)
MI הוא סוג של זקיפה פשוטה. זה כרוך בחישוב הממוצע של הערכים הנצפים ושימוש בתוצאות כדי להסיק את הערכים החסרים. למרבה הצער, שיטה זו הוכחה כלא יעילה. זה יכול להוביל להערכות מוטות רבות, גם כאשר הנתונים חסרים לחלוטין באקראי. בנוסף, "הדיוק" של האומדנים תלוי במספר הערכים החסרים.
לדוגמה, אם חסרים מספר רב של ערכים נצפים, באמצעות זקיפה ממוצעת עלול להוביל לחוסר הערכת ערך. לפיכך, זה מתאים יותר לקבוצות נתונים ומשתנים עם רק כמה ערכים חסרים.
החלפה ידנית
במצב זה, מפעיל יכול להשתמש בידע מוקדם של ערכי מערך הנתונים כדי להחליף את הערכים החסרים. זוהי שיטת זקיפה אחת המסתמכת על הזיכרון או הידע של המפעיל ולעיתים מכונה ידע מוקדם של מספר אידיאלי. הדיוק תלוי ביכולתו של המפעיל לזכור את הערכים, ולכן שיטה זו עשויה להתאים יותר למערכות נתונים עם מספר ערכים חסרים בלבד.
K-Nearest Neighbors (K-NN)
K-nearest neighbour היא טכניקה המפורסמת בשימוש בלמידת מכונה כדי לטפל בבעיות רגרסיה וסיווג. הוא משתמש בממוצע של ערך הנתונים החסרים של השכנים החסרים כדי לחשב ולזקוף אותו. ה שיטת K-NN יעיל הרבה יותר מאשר זקיפה ממוצעת פשוטה ואידיאלי עבור ערכי MCAR ו- MAR.
החלפה
החלפה כרוכה במציאת אדם חדש או נושא לסקר או בדיקה. זה צריך להיות נושא שלא נבחר במדגם המקורי.
זקיפת רגרסיה
רגרסיה מנסה לקבוע את עוצמתו של משתנה תלוי (בדרך כלל מצוין כ-Y) לאוסף של משתנים בלתי תלויים (מסומן בדרך כלל כ-X). רגרסיה לינארית היא צורת הרגרסיה הידועה ביותר. הוא משתמש בקו ההתאמה הטוב ביותר כדי לחזות או לקבוע את הערך החסר. כתוצאה מכך, זוהי השיטה הטובה ביותר לייצוג נתונים חזותית באמצעות מודל רגרסיה.
כאשר רגרסיה לינארית היא צורה של רגרסיה דטרמיניסטית שבה נוצר קשר מדויק בין הערכים החסרים להווה, הערכים החסרים מוחלפים בחיזוי 100% של מודל הרגרסיה. עם זאת, ישנה מגבלה לשיטה זו. רגרסיה ליניארית דטרמיניסטית עלולה לגרום לרוב להערכת יתר של סמיכות הקשר בין הערכים.
סטוכסטיים רגרסיה לינארית מפצה על "דיוק היתר" של רגרסיה דטרמיניסטית על ידי הצגת מונח שגיאה (אקראי) מכיוון ששני מצבים או משתנים קשורים רק לעתים רחוקות באופן מושלם. זה הופך את מילוי הערכים החסרים באמצעות רגרסיה למתאים יותר.
דגימה של Hot Deck
גישה זו כוללת בחירה של ערך שנבחר באקראי מתוך נושא עם ערכים אחרים הדומים לנושא החסר את הערך. זה מחייב אותך לחפש נושאים או אנשים ולאחר מכן למלא את הנתונים החסרים באמצעות הערכים שלהם.
שיטת הדגימה החמה מגבילה את טווח הערכים הניתנים להשגה. לדוגמה, אם המדגם שלך מוגבל לקבוצת גיל בין 20 ל-25, התוצאה שלך תהיה תמיד בין המספרים הללו, מה שמגדיל את הדיוק הפוטנציאלי של ערך החלפה. הנבדקים/היחידים לשיטת זקיפה זו נבחרים באקראי.
דגימת סיפון קר
שיטה זו כוללת חיפוש אחר פרט/נושא בעל ערכים דומים או זהים עבור כל שאר המשתנים/פרמטרים במערך הנתונים. לדוגמה, הנבדק עשוי להיות בעל אותו גובה, רקע תרבותי וגיל כמו הנושא שערכיו חסרים. זה שונה מדגימת סיפון חם בכך שהנושאים נבחרים באופן שיטתי ועושים בהם שימוש חוזר.
אמנם ישנן אפשרויות וטכניקות רבות להתמודדות עם נתונים חסרים, אך מניעה תמיד עדיפה על תרופה. חוקרים חייבים ליישם מחמירים תכנון ניסויים ולימודים. למחקר חייב להיות הצהרת ייעוד או מטרה ברורה בראש.
לעתים קרובות, חוקרים מסבכים יתר על המידה מחקר או לא מצליחים לתכנן נגד מכשולים, מה שגורם לנתונים חסרים או לא מספיקים. תמיד עדיף לפשט את עיצוב המחקר תוך התמקדות מדויקת באיסוף נתונים.
אסוף רק את הנתונים הדרושים לך כדי לעמוד ביעדי המחקר ותו לא. כמו כן, עליך לוודא שכל המכשירים והחיישנים המעורבים במחקר או בניסויים פועלים באופן מלא בכל עת. שקול ליצור גיבויים קבועים של הנתונים/תגובות שלך עם התקדמות המחקר.
נתונים חסרים הם תופעה שכיחה. גם אם אתה מיישם את השיטות המומלצות, אתה עדיין עלול לסבול מנתונים לא מלאים. למרבה המזל, יש דרכים לטפל בבעיה זו לאחר מעשה.
נחלה דייויס הוא מפתח תוכנה וכותב טכנולוגי. לפני שהקדישה את עבודתה במשרה מלאה לכתיבה טכנית, היא הספיקה - בין השאר מסקרנים - לשמש כמתכנתת מובילה בארגון מיתוג חוויתי של Inc. 5,000 שעם לקוחותיו נמנים סמסונג, טיים וורנר, נטפליקס וסוני.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- יכולת
- אודות
- נעדר
- דיוק
- נוסף
- בנוסף
- כתובת
- יתרון
- לאחר
- נגד
- תעשיות
- תמיד
- בין
- ו
- החל
- גישה
- גישות
- מתאים
- סביב
- רכיש
- ניסיונות
- רקע
- גיבויים
- כי
- לפני
- הטוב ביותר
- שיטות עבודה מומלצות
- מוטב
- בֵּין
- מיתוג
- חישוב
- לא יכול
- מקרה
- מקרים
- קטגוריות
- מסוים
- נבחר
- מיון
- ברור
- לקוחות
- אוסף
- איך
- Common
- לחלוטין
- מחובר
- כתוצאה מכך
- לשקול
- רב
- יכול
- קורס
- יוצרים
- תרבותי
- לרפא
- נתונים
- אובדן נתונים
- מדע נתונים
- מערך נתונים
- ערכות נתונים
- עסקה
- התמודדות
- דמוגרפיה
- תלוי
- תלוי
- עיצוב
- לקבוע
- מפתח
- התקנים
- לדון
- לא
- אפקטיבי
- מאמץ
- מספיק
- לְהַבטִיחַ
- שלם
- שגיאה
- נוסד
- הערכות
- אֲפִילוּ
- דוגמה
- חווייתית
- FAIL
- מפורסם
- מפורסם
- מעטים
- למלא
- ממולא
- מציאת
- ראשון
- מתאים
- להתמקד
- טופס
- צורות
- למרבה המזל
- החל מ-
- מלא
- לגמרי
- פונקציונלי
- מטרה
- שערים
- גדול
- יותר
- קְבוּצָה
- מדריך
- גובה
- באיכות גבוהה
- חַם
- אולם
- HTML
- HTTPS
- בן אנוש
- יסוד אנושי
- יבמ
- אידאל
- זהה
- לזהות
- ליישם
- חשוב
- בלתי אפשרי
- in
- בע"מ
- לכלול
- לא נכון
- גדל
- עצמאי
- בנפרד
- אנשים
- לֹא יָעִיל
- מידע
- למשל
- במקום
- מכשירים
- אינטרס
- החדרה
- מעורב
- IT
- KDnuggets
- ידע
- ידוע
- עוֹפֶרֶת
- למידה
- הגבלה
- גבולות
- קו
- את
- מכונה
- למידת מכונה
- ראשי
- עושה
- הצליח
- רב
- לִפְגוֹשׁ
- זכרון
- שיטה
- שיטות
- אכפת לי
- חסר
- משימה
- וקקה
- מודל
- כסף
- יותר
- רוב
- כמעט
- צורך
- השכנים
- נטפליקס
- חדש
- מספר
- מספרים
- המיוחדות שלנו
- ONE
- מפעיל
- אפשרויות
- ארגון
- מְקוֹרִי
- אחר
- אֲנָשִׁים
- הַצָבָה
- תכנית
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אפשרות
- פוטנציאל
- פוטנציאל
- פרקטיקות
- לחזות
- נבואה
- להציג
- מתנות
- מניעה
- יְסוֹדִי
- קודם
- בעיה
- בעיות
- מְתַכנֵת
- מוכח
- לספק
- שאלה
- אקראי
- רכס
- מוּמלָץ
- רשום
- מכונה
- נסיגה
- רגיל
- קשר
- אָמִין
- להסיר
- להחליף
- החליף
- המייצג
- דורש
- חוקרים
- מוגבל
- תוצאה
- תוצאות
- אותו
- סמסונג
- מדע
- חיפוש
- חיפוש
- לעתים נדירות
- נבחר
- בחירה
- חיישנים
- לשרת
- סט
- סטים
- צריך
- דומה
- פָּשׁוּט
- לפשט
- since
- יחיד
- מצב
- מצבים
- So
- תוכנה
- פִּתָרוֹן
- סוני
- מפורט
- החל
- הצהרה
- סטטיסטיקה
- עוד
- כוח
- מחקרים
- לימוד
- נושא
- מַתְאִים
- תומך
- סֶקֶר
- מערכות
- לוקח
- טק
- טכני
- טכניקות
- טכנולוגיה
- מבחן
- השמיים
- שֶׁלָהֶם
- דברים
- שְׁלִישִׁי
- שְׁלוֹשָׁה
- דרך
- קָשׁוּר
- זמן
- פִּי
- ל
- מעקב
- סוגים
- בסופו של דבר
- להשתמש
- בְּדֶרֶך כְּלַל
- ערך
- ערכים
- בַּר חַיִים
- וורנר
- דרכים
- מוכר
- מה
- מה
- אשר
- בזמן
- מי
- יצטרך
- לְלֹא
- תיק עבודות
- סופר
- כתיבה
- X
- זפירנט