שאלות ראיונות מובילות בסטטיסטיקה

צומת המקור: 1121354
שאלות ראיון סטטיסטיקה
טכנולוגיה, אבסטרקט, קונספט

סטטיסטיקה היא תחום חשוב המהווה בסיס חזק ללימוד מדעי הנתונים ומחשוב כמויות גדולות של נתונים. שאלות ראיון סטטיסטיקה אלה יעזרו לך להתכונן למשרות הכוללות מדעי נתונים ולמידת מכונה על ידי רענון הזיכרון שלך בהיבטים מרכזיים של סטטיסטיקה כמו גם הסתברות.

תן לנו לצלול לתוך שאלות ראיון סטטיסטיקה שיעזרו לך לשנות את המושגים שלך ולעזור לך להצליח בכל ראיון. 

שאלות ראיון סטטיסטיקה

1. מהו משפט הגבול המרכזי?

משפט הגבול המרכזי הוא אבן היסוד של הסטטיסטיקה. היא קובעת כי התפלגות מדגם מאוכלוסיה הכוללת גודל מדגם גדול תחולק באופן נורמאלי. במילים אחרות, לא תהיה לו כל השפעה על התפלגות האוכלוסייה המקורית.

משפט הגבול המרכזי נמצא בשימוש נרחב בחישוב רווחי סמך ובדיקת השערות. הנה דוגמה - אנחנו רוצים לחשב את הגובה הממוצע של אנשים בעולם, ולוקחים כמה מדגמים מהאוכלוסייה הכללית, המשמשת כמערך הנתונים. מכיוון שקשה עד בלתי אפשרי להשיג נתונים לגבי הגובה של כל אדם בעולם, פשוט נחשב את הממוצע של המדגם שלנו. 

על ידי הכפלה מספר פעמים, נקבל את הממוצע ואת התדרים שלהם אותם נוכל לשרטט על הגרף וליצור התפלגות נורמלית. זה יהווה עקומה בצורת פעמון שתדמה מאוד למערך הנתונים המקורי.   

2. מהי הנחת התקינות?

הנחת הנורמליות מכתיבה כי ההתפלגות הממוצעת על פני הדגימות היא נורמלית. זה נכון גם לגבי מדגמים עצמאיים.  

3. תאר בדיקת השערות. כיצד מוערכת המובהקות הסטטיסטית של תובנה?

בדיקת השערות בסטטיסטיקה משמשת כדי לראות אם ניסוי מסוים מניב תוצאות משמעותיות. זה בעצם עוזר להעריך את המובהקות הסטטיסטית של תובנה על ידי קביעת הסיכויים שהתוצאות יתרחשו במקרה. הדבר הראשון הוא לדעת את השערת האפס ואז לציין אותה. לאחר מכן מחושב ערך ה-p, ואם השערת האפס נכונה, נקבעים גם ערכים אחרים. ערך האלפא מציין את המשמעות ומותאם בהתאם.

אם ערך ה-p קטן מאלפא, השערת האפס נדחית, אך אם הוא גדול מאלפא, השערת האפס מתקבלת. דחיית השערת האפס מצביעה על כך שהתוצאות שהתקבלו הן מובהקות סטטיסטית.

4. מהם נתונים תצפיתיים וניסיוניים בסטטיסטיקה?

נתוני תצפית נגזרים מהתבוננות במשתנים מסוימים ממחקרי תצפית. המשתנים נצפים כדי לקבוע כל מתאם ביניהם.

נתונים ניסיוניים נגזרים מאותם מחקרים ניסיוניים שבהם משתנים מסוימים נשמרים קבועים כדי לקבוע אי התאמה או סיבתיות. 

5. מהו חריג? 

ניתן להגדיר חריגים כנקודות הנתונים בתוך מערך נתונים המשתנה במידה רבה בהשוואה לתצפיות אחרות. בהתאם לסיבה שלו, חריג יכול להפחית את הדיוק כמו גם את היעילות של המודל. לכן, חיוני להסיר אותם ממערך הנתונים. 

6. כיצד לסנן חריגים במערך נתונים?

ישנן דרכים רבות לסנן ולזהות חריגים פוטנציאליים במערך נתונים. שתי שיטות מפתח מתוארות להלן -

  • סטיית תקן/ציון z – ציון Z או ציון תקן ניתן לקבל בהתפלגות נורמלית על ידי חישוב גודלה של סטיית תקן אחת והכפלתה ב-3. לאחר מכן מזהים את נקודות הנתונים מחוץ לטווח. ציון Z נמדד מהממוצע. אם ציון z חיובי, זה אומר שנקודת הנתונים היא מעל הממוצע.

אם ציון z שלילי, נקודת הנתונים מתחת לממוצע.

אם ציון z קרוב לאפס, נקודת הנתונים קרובה לממוצע.

אם ציון ה-z הוא מעל או מתחת ל-3, הוא חריג ונקודת הנתונים נחשבת לא שגרתית. 

הנוסחה לחישוב ציון z היא - 

z= נקודת נתונים-ממוצע/סטיית תקן OR z=x−μ/ σ

  • טווח בין-רבעוני (IQR) – IQR, המכונה גם midspread, היא שיטה לזיהוי חריגים וניתן לתאר אותה כטווח הערכים המתרחש לאורך האמצע של 50% מערך נתונים. זה פשוט ההבדל בין שתי נקודות נתונים קיצוניות בתוך התצפית. 

IQR=Q3 - Q1

שיטות אחרות למסך חריגים כוללות יערות בידוד, יערות גזורים אקראיים חזקים ואשכול DBScan.

7. מה הפירוש של פנימי?

Inliner הוא נקודת נתונים בתוך מערך נתונים שנמצא באותה רמה כמו האחרים. בדרך כלל מדובר בשגיאה והיא מוסרת כדי לשפר את דיוק הדגם. שלא כמו חריגים, קשה למצוא את ה-inlier ולעיתים קרובות דורש נתונים חיצוניים לזיהוי מדויק. 

8. מה הפירוש של שש סיגמא בתשחץ ?

Six Sigma בסטטיסטיקה היא שיטת בקרת איכות לייצור מערך נתונים ללא שגיאות או פגמים. סטיית תקן ידועה בשם Sigma או σ. ככל שסטיית התקן גדולה יותר, כך קטן הסיכוי שהתהליך יתבצע בדיוק ויגרום לפגם. אם תוצאת התהליך היא 99.99966% נטולת שגיאות, היא נחשבת שש סיגמא. מודל שש סיגמא עובד טוב יותר מתהליכים 1σ, 2σ, 3σ, 4σ, 5σ והוא אמין מספיק כדי לייצר עבודה נטולת פגמים. 

9. מה המשמעות של KPI בסטטיסטיקה?

KPI הוא ראשי תיבות של מחוון ביצועים מפתח. ניתן להגדיר זאת כמדד שניתן לכמת כדי להבין אם המטרה מושגת או לא. KPI הוא מדד אמין למדידת רמת הביצועים של ארגון או אדם ביחס ליעדים. דוגמה ל-KPI בארגון היא יחס ההוצאות.

10. מהו עקרון פארטו?

ידוע גם בתור כלל 80/20, עקרון פארטו קובע ש-80% מההשפעות או התוצאות בניסוי מתקבלות מ-20% מהסיבות. דוגמה פשוטה היא - 20% מהמכירות מגיעות מ-80% מהלקוחות.

11. מהו חוק המספרים הגדולים בסטטיסטיקה?

על פי חוק המספרים הגדולים, עלייה במספר הניסויים בניסוי תגרום לעלייה חיובית ופרופורציונלית בתוצאות שמתקרבות לערך הצפוי. כדוגמה, הבה נבדוק את ההסתברות להטיל קובייה בעלת שש צלעות שלוש פעמים. הערך הצפוי שהתקבל רחוק מהערך הממוצע. ואם נטיל קובייה מספר רב של פעמים, נקבל את התוצאה הממוצעת קרובה יותר לערך הצפוי (שהוא 3.5 במקרה זה). 

12. מהן חלק מהתכונות של התפלגות נורמלית?

ידוע גם בשם התפלגות גאוסית, התפלגות נורמלית מתייחסת לנתונים שהם סימטריים לממוצע, ונתונים רחוקים מהממוצע הם פחות שכיחים. הוא מופיע כעקומה בצורת פעמון בצורה גרפית, שהיא סימטרית לאורך הצירים.

התכונות של התפלגות נורמלית הן -

  • סימטרי - הצורה משתנה עם זו של ערכי פרמטרים
  • Unimodal - בעל מצב אחד בלבד.
  • ממוצע - מדד הנטייה המרכזית
  • נטייה מרכזית - הממוצע, החציון והמצב נמצאים במרכז, כלומר כולם שווים, והעקומה סימטרית לחלוטין בנקודת האמצע. 

13. איך היית מתאר 'p-value'?

ערך P בסטטיסטיקה מחושב במהלך בדיקת השערות, וזהו מספר המציין את הסבירות לנתונים שיופיעו במקרה אקראי. אם ערך p הוא 0.5 והוא קטן מאלפא, נוכל להסיק שיש סבירות של 5% שתוצאות הניסוי התרחשו במקרה, או שאתה יכול לומר, 5% מהמקרים, נוכל לצפות בתוצאות הללו במקרה . 

14. כיצד ניתן לחשב את ערך ה-p באמצעות MS Excel?

הנוסחה המשמשת ב- MS Excel לחישוב ערך p היא -

 = tdist (x, deg_freedom, זנבות)

ערך ה-p מבוטא בעשרונים באקסל. להלן השלבים לחישוב זה -

  • מצא את הכרטיסייה נתונים 
  • בלשונית ניתוח, לחץ על סמל ניתוח הנתונים 
  • בחר סטטיסטיקה תיאורית ולאחר מכן לחץ על אישור
  • בחר את העמודה הרלוונטית
  • הזן את רמת הביטחון ומשתנים אחרים 

15. מהם סוגי ההטיות שאתה יכול להיתקל בהן בזמן הדגימה?

הטיית דגימה מתרחשת כאשר חסר לך ייצוג הוגן של דגימות נתונים במהלך חקירה או סקר. ששת הסוגים העיקריים של הטיות שאפשר להיתקל בהן בזמן הדגימה הם -

  • הטיה סמויה
  • הטיית צופה
  • הטיית הישרדות
  • בחירה עצמית/הטיית תגובה מרצון
  • להטיית זיכרון
  • הטיית הדרה

16. מה זה קטיף דובדבנים, P-hacking ומרדף אחרי משמעות?

ניתן להגדיר את קטיף הדובדבנים כמנהג בסטטיסטיקה שבו נבחר רק מידע זה התומך בטענה מסוימת ומתעלם מכל טענה אחרת המפריכה את המסקנה הרצויה.

P-hacking מתייחס לטכניקה שבה איסוף או ניתוח נתונים עוברים מניפולציות עד שניתן למצוא דפוסים משמעותיים שאין להם השפעה בסיסית כלשהי. 

רדיפת המשמעות ידועה גם בשמות של Data Dredging, Data Fishing או Data Snooping. הכוונה היא לדיווח על תוצאות לא משמעותיות כאילו הן כמעט משמעותיות. 

17. מה ההבדל בין שגיאות מסוג I לעומת שגיאות מסוג II?

שגיאה מסוג 1 מתרחשת כאשר השערת האפס נדחית גם אם היא נכונה. זה ידוע גם כ-false positive.

שגיאה מסוג 2 מתרחשת כאשר השערת האפס לא מצליחה להידחות, גם אם היא שקרית. זה ידוע גם בתור שלילית כוזבת.

18. מהי אינטראקציה סטטיסטית?

אינטראקציה סטטיסטית מתייחסת לתופעה המתרחשת כאשר השפעתו של משתנה קלט משפיעה על משתנה הפלט. דוגמה מהחיים האמיתיים כוללת את האינטראקציה של הוספת סוכר לערבול התה. לאף אחד משני המשתנים אין השפעה על המתיקות, אבל זה השילוב של שני המשתנים האלה שכן. 

19. תן דוגמה למערך נתונים עם התפלגות לא גאוסית?

התפלגות לא גאוסית היא תופעה שכיחה בתהליכים רבים בסטטיסטיקה. זה קורה כאשר הנתונים עוקבים באופן טבעי אחר התפלגות לא נורמלית עם נתונים מקובצים בצד זה או אחר בגרף. לדוגמה, הצמיחה של חיידקים עוקבת אחר התפלגות לא גאוסית או אקספוננציאלית באופן טבעי וחלוקת Weibull. 

20. מהי נוסחת ההתפלגות הבינומית?

נוסחת ההתפלגות הבינומית היא:

b(x; n, P) = nCx * Px * (1 – P)n – x

איפה:

b = הסתברות בינומית

x = המספר הכולל של "הצלחות" (עובר או נכשל, ראשים או זנבות וכו')

P = הסתברות להצלחה בניסוי בודד

n = מספר ניסויים

21. מהם הקריטריונים שבהם התפלגויות בינומיות חייבות לעמוד?

להלן שלושת הקריטריונים העיקריים שהתפלגויות בינומיות חייבות לעמוד בהם -

  • יש לקבוע את מספר ניסויי התצפית. זה אומר שאפשר למצוא את ההסתברות למשהו רק כשעושים אותו רק מספר מסוים של פעמים.
  • כל ניסוי צריך להיות עצמאי. זה אומר שאף אחד מהניסויים לא אמור להשפיע על ההסתברות של ניסויים אחרים.
  • ההסתברות להצלחה נשארת זהה בכל הניסויים. 

22. מהי רגרסיה לינארית? 

בסטטיסטיקה, רגרסיה ליניארית היא גישה המדגימה את הקשר בין משתנה מסביר אחד או יותר למשתנה תוצאה אחד. לדוגמה, רגרסיה ליניארית יכולה לשמש לכימות או מודל של הקשר בין משתני מנבא שונים כגון גיל, מגדר, גנטיקה ותזונה על גובה ומשתני תוצאה. 

23. מהן ההנחות הנדרשות לרגרסיה לינארית?

ארבע הנחות עיקריות עבור רגרסיה ליניארית הן תחת -

  • יש קשר ליניארי בין המשתנים המנבאים (הבלתי תלויים) למשתנה התוצאה (התלוי). זה אומר שהקשר בין X לממוצע של Y הוא ליניארי.
  • השגיאות מתפלגות בדרך כלל ללא מתאם ביניהן. תהליך זה ידוע בשם אוטוקורלציה. 
  • קיים היעדר מתאם בין משתני מנבא. תופעה זו נקראת מולטי-קולינאריות.
  • השונות במשתנה התוצאה או התגובה זהה עבור כל הערכים של משתנים בלתי תלויים או מנבאים. תופעה זו של הנחת שונות שווה ידועה בשם הומוסקדסטיות. 

24. מהם חלק מהאלגוריתמים של למידת מכונה הנמוכה והגבוהה?

חלק מהאלגוריתמים של למידת מכונה הנמוכה והגבוהה בשימוש נרחב הם -

הטיה נמוכה -עצי החלטה, תמיכה וקטור מכונות, k-Nearest Neighbors וכו'.

הטיה גבוהה -רגרסיה לינארית, רגרסיה לוגיסטית, ניתוח מבחין ליניארי וכו'. 

25. מתי כדאי להשתמש במבחן t לעומת מבחן z?

מבחן z משמש לבדיקת השערות בסטטיסטיקה עם התפלגות נורמלית. הוא משמש לקביעת שונות האוכלוסייה במקרה שבו המדגם גדול. 

מבחן ה-t משמש עם התפלגות t ומשמש לקביעת שונות האוכלוסייה כאשר יש לך גודל מדגם קטן. 

במקרה שגודל המדגם גדול או n>30, נעשה שימוש במבחן z. בדיקות T מועילות כאשר גודל המדגם קטן או n<30.

26. מהי המשוואה של רווחי סמך עבור אמצעים לעומת פרופורציות?

כדי לחשב את רווחי הסמך עבור הממוצע, אנו משתמשים במשוואה הבאה -

עבור n > 30

השתמש בטבלת Z עבור ההתפלגות הנורמלית הסטנדרטית.

עבור n<30

השתמש בטבלת t עם df=n-1

רווח סמך לשיעור האוכלוסייה -

27. מהו הכלל האמפירי?

בסטטיסטיקה, הכלל האמפירי קובע שכל פיסת נתונים בהתפלגות נורמלית נמצאת בתוך שלוש סטיות תקן של הממוצע. זה ידוע גם בתור כלל 68–95–99.7. על פי הכלל האמפירי, אחוז הערכים הנמצאים בהתפלגות נורמלית עוקב אחר כלל 68%, 95% ו-99.7%. במילים אחרות, 68% מהערכים ייפלו בתוך סטיית תקן אחת מהממוצע, 95% ייפלו בתוך שתי סטיות תקן ו-99.75 ייפלו בתוך שלוש סטיות תקן מהממוצע.

28. במה דומים מבחני ביטחון ומבחני השערה? איך הם שונים?

מבחני ביטחון ומבחני השערות מהווים שניהם את הבסיס לסטטיסטיקה. 

לרווח הסמך יש חשיבות במחקר כדי להציע בסיס חזק להערכות מחקר, במיוחד במחקר רפואי. רווח הסמך מספק מגוון ערכים שעוזר בלכידת הפרמטר הלא ידוע. 

אנו יכולים לחשב רווח סמך באמצעות נוסחה זו -

בדיקת השערות משמשת לבדיקת ניסוי או תצפית ולקבוע אם התוצאות לא התרחשו רק במקרה או במזל באמצעות הנוסחה שלהלן שבה 'p' הוא פרמטר כלשהו. 

בדיקת אמון והשערה הן טכניקות מסקנות המשמשות להערכת פרמטר או לבדיקת תקפותה של השערה באמצעות מדגם של נתונים מאותו מערך נתונים. בעוד שרווח סמך מספק טווח של ערכים לאומדן מדויק של הדיוק של פרמטר זה, בדיקת השערות אומרת לנו עד כמה בטוחים שאנו מסיקים מסקנות לא מדויקות לגבי פרמטר ממדגם. ניתן להשתמש בשניהם כדי להסיק פרמטרים של אוכלוסייה במקביל. 

במקרה שאנו כוללים 0 ברווח הסמך, זה מצביע על כך שלמדגם ולאוכלוסיה אין הבדל. אם נקבל ערך p גבוה מאלפא מבדיקת השערות, זה אומר שלא נצליח לדחות את השערת השור.

29. אילו תנאים כלליים חייבים להתקיים כדי שמשפט הגבול המרכזי יתקיים?

להלן התנאים שחייבים להתקיים כדי שמשפט הגבול המרכזי יתקיים -

  • הנתונים חייבים לעקוב אחר תנאי האקראיות, כלומר יש לדגום אותם באופן אקראי.
  • הנחות העצמאות מכתיבות שערכי המדגם חייבים להיות בלתי תלויים זה בזה.
  • גדלים לדוגמא חייבים להיות גדולים. הם חייבים להיות שווים או גדולים מ-30 כדי להיות מסוגלים להחזיק CLT. נדרש גודל מדגם גדול כדי שהדיוק של CLT יהיה נכון. 

30. מהי דגימה אקראית? תן כמה דוגמאות לכמה טכניקות דגימה אקראיות.

דגימה אקראית היא שיטת דגימה שבה לכל מדגם יש הסתברות שווה להיבחר כמדגם. זה ידוע גם בשם דגימת הסתברות.

הבה נבדוק ארבעה סוגים עיקריים של טכניקות דגימה אקראית -

  • טכניקת דגימה אקראית פשוטה - בטכניקה זו, מדגם נבחר באופן אקראי באמצעות מספרים שנוצרו באקראי. נדרשת מסגרת דגימה עם רשימת חברי האוכלוסייה, המסומנת ב-'n'. באמצעות אקסל, ניתן ליצור באופן אקראי מספר עבור כל רכיב שנדרש.
  • טכניקת דגימה אקראית שיטתית -טכניקה זו נפוצה מאוד וקלה לשימוש בסטטיסטיקה. בטכניקה זו, כל אלמנט ק' נדגם. לדוגמה, אלמנט אחד נלקח מהמדגם ולאחר מכן את הבא תוך דילוג על הכמות שהוגדרה מראש או 'n'. 

במסגרת דגימה, חלקו את גודל המסגרת N בגודל המדגם (n) כדי לקבל 'k', מספר האינדקס. לאחר מכן בחר כל רכיב ק' כדי ליצור את המדגם שלך. 

  • טכניקת Cluster Random Sampling - בטכניקה זו האוכלוסייה מחולקת לאשכולות או לקבוצות באופן שכל אשכול מייצג את האוכלוסייה. לאחר מכן, אתה יכול לבחור באופן אקראי אשכולות לדגימה.  
  • טכניקת דגימה אקראית שכבתית - בטכניקה זו מחולקת האוכלוסייה לקבוצות בעלות מאפיינים דומים. לאחר מכן ניתן לקחת מדגם אקראי מכל קבוצה כדי להבטיח שפלחים שונים מיוצגים באופן שווה בתוך אוכלוסייה. 

31. מה ההבדל בין אוכלוסייה למדגם בסטטיסטיקה מסקנתית?

אוכלוסיה בסטטיסטיקה הסקתית מתייחסת לכל הקבוצה שאנו לוקחים ממנה דגימות ומשמשות להסקת מסקנות. מדגם, לעומת זאת, הוא קבוצה ספציפית שאנו לוקחים ממנה נתונים ונתונים אלו משמשים לחישוב הסטטיסטיקה. גודל המדגם תמיד קטן מזה של האוכלוסייה. 

32. מהי סטטיסטיקה תיאורית?

סטטיסטיקה תיאורית משמשת לסיכום המאפיינים הבסיסיים של מערך נתונים במחקר או בניסוי. יש לו שלושה סוגים עיקריים - 

  • התפלגות - מתייחס לתדירויות התגובות.
  • נטייה מרכזית - נותן מדד או ממוצע של כל תגובה.
  • שונות - מציגה את הפיזור של מערך נתונים.

33. מהם נתונים כמותיים ונתונים איכותיים?

נתונים איכותיים משמשים לתיאור המאפיינים של נתונים ומוכרים גם כנתונים קטגוריים. למשל, כמה סוגים. נתונים כמותיים הם מדד של ערכים או ספירות מספריים. למשל, כמה או באיזו תדירות. זה ידוע גם בשם נתונים מספריים.

34. איך מחשבים טווח וטווח בין-רבעוני?

הטווח הוא ההבדל בין הערכים הגבוהים והנמוכים ביותר ואילו הטווח הבין-רבעוני הוא ההבדל בין חציון עליון לתחתון.  

טווח (X) = Max(X) – Min(X)

IQR = Q3 – Q1

כאן, Q3 הוא הרבעון השלישי (75 אחוזון) 

כאן, הרבעון הראשון הוא הרבעון הראשון (1 אחוזון)

35. מה המשמעות של סטיית תקן?

סטיית תקן נותנת את המדד של וריאציה של פיזור ערכים במערך נתונים. הוא מייצג את ההבדלים של כל תצפית או נקודת נתונים מהממוצע.

(σ) = √(∑(x-µ)2 / n)

כאשר השונות היא ריבוע סטיית התקן.

36. מה הקשר בין ממוצע לחציון בהתפלגות נורמלית?

בהתפלגות נורמלית, הממוצע והחציון שווים. 

37. מהי התפלגות מוטת שמאל ומהי התפלגות מוטת ימין?

בהפצה מוטה שמאלה, הזנב השמאלי ארוך יותר מהצד הימני.  

ממוצע < חציון < מצב

בהפצה המוטה ימינה, הזנב הימני ארוך יותר. זה ידוע גם כהפצה חיובית-נטויה.

מצב < חציון < ממוצע

38. איך ממירים התפלגות נורמלית להתפלגות נורמלית תקנית?

ניתן להמיר כל נקודה (x) מההתפלגות הנורמלית להתפלגות נורמלית רגילה (Z) באמצעות נוסחה זו -

Z(סטנדרטי) = (x-µ) / σ

כאן, Z עבור כל ערך x מסוים מציין כמה סטיות תקן x רחוקות מהממוצע של כל הערכים של x.

39. מה אתה יכול לעשות עם חריג?

חריגים משפיעים על בדיקות A/B וניתן להסיר אותם או לשמור אותם בהתאם לדרישות המצב או לדרישות מערך הנתונים. 

הנה כמה דרכים להתמודד עם חריגים בנתונים -

  • סנן חריגים במיוחד כאשר יש לנו המון נתונים.
  • אם נקודת נתונים שגויה, עדיף להסיר את החריגים.
  • לחלופין, ניתן לספק שתי אפשרויות - אחת עם חריגים ואחת ללא.
  • במהלך ניתוח שלאחר הבדיקה, ניתן להסיר או לשנות חריגים. הדרך הטובה ביותר לשנות אותם היא לקצץ את מערך הנתונים.
  • אם יש הרבה חריגים והתוצאות קריטיות, אז עדיף לשנות את הערך של החריגים למשתנים אחרים. ניתן לשנות אותם לערך המייצג את מערך הנתונים.
  • כאשר לחריגים יש משמעות, ניתן לשקול אותם, במיוחד במקרה של חריגים מתונים. 

40. איך לזהות חריגים?

הדרך הטובה ביותר לזהות חריגים היא באמצעים גרפיים. מלבד זאת, ניתן לזהות חריגים גם באמצעות שימוש בשיטות סטטיסטיות באמצעות כלים כמו Excel, Python, SAS, בין היתר. הדרכים הגרפיות הפופולריות ביותר לזיהוי חריגים כוללות עלילת קופסה ועלילת פיזור. 

41. למה אנחנו צריכים נתונים סטטיסטיים לדוגמה?

הדגימה בסטטיסטיקה נעשית כאשר פרמטרי אוכלוסייה אינם ידועים, במיוחד כאשר גודל האוכלוסייה גדול מדי.

42. מה הקשר בין טעות סטנדרטית לבין מרווח הטעות?

מרווח טעות = ערך קריטי X סטיית תקן לאוכלוסיה 

ו

מרווח שגיאה = ערך קריטי X טעות סטנדרטית של המדגם.

מרווח הטעות יגדל עם השגיאה הסטנדרטית. 

43. מהו שיעור רווחי הסמך שלא יכילו את פרמטר האוכלוסייה?

אלפא היא ההסתברות ברווח סמך שלא יכיל את פרמטר האוכלוסייה. 

α = 1 – CL

אלפא מתבטא בדרך כלל כפרופורציה. לדוגמה, אם רמת הביטחון היא 95%, אז אלפא יהיה שווה ל-1-0.95 או 0.05. 

44. מהו עקמת?

הטיה מספקת את המדד לסימטריה של התפלגות. אם התפלגות אינה נורמלית או אסימטרית, היא מוטה. התפלגות יכולה להפגין נטייה חיובית או נטייה שלילית אם הזנב בצד ימין ארוך יותר והזנב בצד שמאל ארוך יותר, בהתאמה. 

45. מה המשמעות של שיתוף פעולה?

בסטטיסטיקה, שונות משתנים היא מדד לקשר בין שני משתנים אקראיים מהממוצע שלהם במחזור. 

46. ​​מהו משתנה מבלבל?

משתנה מבלבל בסטטיסטיקה הוא משתנה 'נוסף' או 'שלישי' המשויך הן למשתנה התלוי והן למשתנה הבלתי תלוי, והוא יכול לתת אומדן שגוי שמספק תוצאות חסרות תועלת. 

לדוגמה, אם אנו חוקרים את ההשפעה של עלייה במשקל, אז חוסר אימון יהיה המשתנה הבלתי תלוי, ועלייה במשקל תהיה המשתנה התלוי. במקרה זה, כמות צריכת המזון יכולה להיות המשתנה המבלבל שכן היא תסתיר או תעוות את ההשפעה של משתנים אחרים במחקר. השפעת מזג האוויר יכולה להיות עוד משתנה מבלבל שעשוי מאוחר יותר לתכנן את הניסוי. 

47. מה זה אומר אם מודל הוא הטרוסקדסטי?

אומרים שמודל הוא הטרוסקדסטי כאשר השונות בשגיאות יוצאת כלא עקבית. זה קורה לעתים קרובות בשתי צורות - מותנה ובלתי מותנה.

48. מהי הטיית בחירה ולמה היא חשובה?

הטיית בחירה היא מונח בסטטיסטיקה המשמש לציון המצב כאשר אנשים נבחרים או קבוצה בתוך מחקר שונים באופן מאוכלוסיית העניין שהם נותנים טעות שיטתית בתוצאה.

בדרך כלל ניתן לזהות הטיית בחירה באמצעות מבחנים דו משתנים מלבד שימוש בשיטות אחרות של רגרסיה מרובה כגון רגרסיה לוגיסטית.

חשוב להבין ולזהות הטיית בחירה כדי למנוע הטיית תוצאות במחקר. הטיית בחירה יכולה להוביל לתובנות שגויות לגבי קבוצת אוכלוסייה מסוימת במחקר.

סוגים שונים של הטיית בחירה כוללים -

  • הטיית דגימה - היא נגרמת לעתים קרובות על ידי דגימה לא אקראית. הדרך הטובה ביותר להתגבר על זה היא על ידי ציור ממדגם שאינו בחירה עצמית.
  • שחיקת משתתפים - שיעור הנשירה של משתתפים ממחקר מהווה שחיקה של משתתפים. ניתן להימנע מכך על ידי מעקב אחר המשתתפים שירדו כדי לקבוע אם השחיקה נובעת מנוכחות של גורם משותף בין המשתתפים או משהו אחר.
  • חשיפה - היא מתרחשת עקב הערכה שגויה או חוסר תוקף פנימי בין חשיפה להשפעה באוכלוסייה.
  • נתונים - זה כולל חפירה של נתונים וקטיף דובדבנים ומתרחש כאשר מספר רב של משתנים קיימים בנתונים הגורמים אפילו לתוצאות מזויפות להיראות משמעותיות. 
  • מרווח זמן - זוהי טעות דגימה המתרחשת כאשר תצפיות נבחרות מתקופת זמן מסוימת בלבד. לדוגמה, ניתוח מכירות בעונת חג המולד.
  • בחירת צופה- זוהי מעין אי התאמה או הטיית זיהוי המתרחשת במהלך צפייה בתהליך ומכתיבה שכדי שהנתונים יהיו ניתנים לצפייה, הם חייבים להיות תואמים לחיים שצופים בהם.

49. מה המשמעות של אוטוקורלציה?

אוטוקורלציה היא ייצוג של מידת המתאם בין שני המשתנים בסדרת זמן נתונה. זה אומר שהנתונים נמצאים בקורלציה באופן שבו תוצאות עתידיות מקושרות לתוצאות העבר. קורלציה אוטומטית הופכת מודל לפחות מדויק מכיוון שאפילו שגיאות עוקבות אחר דפוס רציף. 

50. מה המשמעות של עיצוב ניסויים?

The Design of Experiments או DOE היא שיטה שיטתית שמסבירה את הקשר בין הגורמים המשפיעים על תהליך לבין התפוקה שלו. הוא משמש כדי להסיק ולחזות תוצאה על ידי שינוי משתני הקלט. 

51. מהו התיקון של בסל?

התיקון של בסל דוגל בשימוש ב-n-1 במקום n בנוסחה של סטיית תקן. זה עוזר להגביר את הדיוק של התוצאות תוך ניתוח מדגם של נתונים כדי להסיק מסקנות כלליות יותר.

52. אילו סוגי משתנים משמשים למקדם המתאם של פירסון?

משתנים (הן המשתנים התלויים והבלתי תלויים) המשמשים עבור מקדם המתאם של פירסון חייבים להיות כמותיים. הוא יבדוק רק את הקשר הליניארי בין שני משתנים.

53. מה השימוש בטבלאות Hash בסטטיסטיקה?

בסטטיסטיקה, טבלאות hash משמשות לאחסון ערכי מפתח או זוגות בצורה מובנית. הוא משתמש בפונקציית Hash כדי לחשב אינדקס למערך של חריצים שבהם ניתן לחפש את האלמנטים הרצויים. 

54. האם התפלגות סימטרית צריכה להיות חד-מודאלית?

חלוקה סימטרית לא בהכרח צריכה להיות חד-מודאלית, היא יכולה להיות מוטה או א-סימטרית. הם יכולים להיות בי-מודאליים עם שתי פסגות או מולטי-מודאליים עם מספר פסגות. 

55. מה היתרון בשימוש במגרשי קופסה?

Boxplot הוא ייצוג יעיל מבחינה ויזואלית של שני מערכי נתונים או יותר ומאפשר השוואה מהירה בין קבוצת היסטוגרמות.

56. מה המשמעות של וקטוריזציה TF/IDF?

TF/IDF הוא ראשי תיבות של Term Frequency – Inverse Document Frequency והוא מדד מספרי בשימוש נרחב בסטטיסטיקה לסיכום. זה משקף את החשיבות של מילה או מונח במסמך. המסמך נקרא אוסף או קורפוס.

57. מה המשמעות של רגישות בסטטיסטיקה?

רגישות מתייחסת לדיוק של מסווג במבחן. ניתן לחשב אותו באמצעות הנוסחה -

רגישות = אירועים אמיתיים חזויים/מספר כולל של אירועים

58. מה ההבדל בין הרבעון הראשון, הרבעון השני והרבעון השלישי?

הרבעון הראשון מסומן ב-Q1 והוא החציון של החצי התחתון של מערך הנתונים.

הרבעון השני מסומן ב-Q2 והוא החציון של מערך הנתונים.

הרבעון השלישי מסומן ב-Q3 והוא החציון של המחצית העליונה של מערך הנתונים.

כ-25% ממערך הנתונים נמצא מעל לרבעון השלישי, 3% מתחת לרבעון השלישי ו-75% נמצאים מתחת לרבעון השני. ה-Q3, Q50 ו-Q2 הם ה-1th, 50ה, ו 75th אחוזון בהתאמה.

59. מהי קורטוזיס?

קורטוזיס הוא מדד למידת הערכים הקיצוניים הקיימים בזנב התפלגות אחד או שיאי התפלגות התדר בהשוואה לאחרים. להתפלגות הנורמלית הסטנדרטית יש קורטוזיס של 3 ואילו ערכי הסימטריה והקורטוזיס בין -2 ל-+2 נחשבים תקינים ומקובלים. מערכי הנתונים עם רמה גבוהה של קורטוזיס מרמזים שיש נוכחות של חריגים. צריך להוסיף נתונים או להסיר חריגים כדי להתגבר על בעיה זו. למערכות נתונים עם רמות קורטוזיס נמוכות יש זנבות קלים וחסרים חריגים.

60. מהי התפלגות עקומת פעמון?

התפלגות עקומת פעמון מיוצגת על ידי צורת פעמון ומציינת התפלגות נורמלית. זה מתרחש באופן טבעי במצבים רבים במיוחד בזמן ניתוח נתונים פיננסיים. החלק העליון של העקומה מציג את המצב, הממוצע והחציון של הנתונים והוא סימטרי לחלוטין. מאפייני המפתח של עקומה בצורת פעמון הם -

  • הכלל האמפירי אומר שכ-68% מהנתונים נמצאים בסטיית תקן אחת של הממוצע בכל אחד מהכיוונים.
  • בסביבות 95% מהנתונים נופלים בשתי סטיות תקן ו
  • בסביבות 99.7% מהנתונים נופלים בשלוש סטיות תקן בכל כיוון. 

שאלות ראיון סטטיסטיקה אלה מכסות את הבסיס הבסיסי של סטטיסטיקה ומקלות על התלמידים ואנשי המקצוע להבהיר את היסודות שלהם בנושא זה. לכמה מהקורסים המקוונים המובילים בתעשייה בנושא סטטיסטיקה, אתה יכול לפנות אל אקדמיה למידה נהדרת ועל מיומנות בתחום זה. 

0 מקור: https://www.mygreatlearning.com/blog/statistics-interview-questions/

בול זמן:

עוד מ למידה מצוינת