20 פרויקטים של למידת מכונות שיעסיקו אותך
אם אתה רוצה לפרוץ לשוק העבודה של למידת מכונה ומדעי הנתונים, תצטרך להפגין את בקיאות הכישורים שלך, במיוחד אם אתה אוטודידקט באמצעות קורסים מקוונים ואוטקאמפים. תיק פרויקטים הוא דרך מצוינת לתרגל את האומנות החדשה שלך ולהציע הוכחות משכנעות לכך שעובד צריך להעסיק אותך על פני המתחרים.
By חשבו שאה, מנהל תוכן ב-ProjectPro.
תעשיית ה-AI ו-Machine Learning פורחת כמו מעולם. החל משנת 2021, הגידול בשימוש בבינה מלאכותית בין עסקים תיצור 2.9 טריליון דולר של ערך עסקי. בינה מלאכותית הפכה תעשיות רבות ברחבי העולם לאוטומטיות ושינתה את אופן הפעולה שלהן. רוב החברות הגדולות משלבות בינה מלאכותית כדי למקסם את הפרודוקטיביות בזרימת העבודה שלהן, ותעשיות כמו שיווק ושירותי בריאות עברו שינוי פרדיגמה עקב איחוד הבינה המלאכותית.
מקור תמונה: Unsplash
בשל כך, יש בשנים האחרונות ביקוש גובר לאנשי מקצוע בינה מלאכותית. כמעט נרשמה עלייה של 100% במשרות המשרות הקשורות לבינה מלאכותית ולמידת מכונה משנת 2015 עד 2018. מספר זה גדל מאז והוא צפוי לעלות ב-2021.
אם אתם מחפשים לפרוץ לתעשיית למידת המכונה, החדשות הטובות הן שלא חסרות משרות זמינות. חברות זקוקות לכוח עבודה מוכשר המסוגל להוביל את המעבר ללמידת מכונה. עם זאת, לשוק העבודה חודרים אנשים שרוצים לפרוץ לתעשיית הנתונים. מכיוון שאף תכנית לימודים ספציפית לא פנתה לסטודנטים שרוצים ללמוד למידת מכונה, מתרגלי ML שואפים רבים הם אוטודידקטיים.
ישנם למעלה מ-4 מיליון סטודנטים רשומים לקורס מקוון למידת מכונה של אנדרו נג.
למרבה הצער, הרשמה לקורסים מקוונים או לקיחת Bootcamp למידת מכונה עוזרת לך ללמוד את המושגים התיאורטיים אבל לא מכינה אותך לעבודה בתעשייה. יש עוד הרבה עבודה מעשית לעשות, לאחר שלמדתי את התיאוריה. נניח שאתה מכיר את היסודות של אלגוריתמי למידת מכונה - אתה מבין כיצד פועלים מודלים של רגרסיה וסיווג, ואתה מכיר את הסוגים השונים של שיטות מקבץ.
איך אתה מתכוון לתרגל את המיומנויות שלמדת כדי לפתור בעיה בחיים האמיתיים? התשובה הפשוטה היא: תרגול, תרגול ותרגול מגוון פרויקטים של למידת מכונה.
לאחר שתסיים ללמוד מושגים תיאורטיים, עליך להתחיל לעבוד על פרויקטים של AI ולמידת מכונה. פרויקטים אלה יעניקו לך את התרגול הדרוש כדי לחדד את כישוריך בתחום, ובו בזמן, הם מהווים ערך מוסף גדול לתיק למידת המכונה שלך.
בלי הרבה מהומה, בואו נחקור כמה רעיונות לפרויקטי ML שלא רק יגרמו לתיק העבודות שלכם להיראות טוב, אלא גם ישפרו משמעותית את כישורי למידת המכונה שלכם. זוהי רשימה אוצרת של כמה מהפרויקטים הטובים ביותר של למידת מכונה עבור סטודנטים, מתרגלים שאפתנים של למידת מכונה ואנשים מתחומים לא טכניים. אתה יכול לעבוד על הפרויקטים האלה ללא קשר לרקע שלך, כל עוד יש לך כמה קידוד וידע של מיומנויות למידת מכונה. זוהי רשימה של פרויקטים של למידת מכונה למתחילים ומתקדמים.
אם אתה חדש בתעשיית הנתונים ויש לך ניסיון מועט בפרויקטים מהחיים האמיתיים, התחל עם פרויקטי ML ברמת מתחילים לפני שתמשיך לפרויקטים המאתגרים יותר.
פרויקטים של למידת מכונה למתחילים
1. חיזוי קאגגל טיטאניק
הפרויקט הראשון ברשימה זו הוא אחד מפרויקטי ה-ML הפשוטים ביותר שתוכלו לקחת על עצמכם. פרויקט זה מומלץ להשלמת מתחילים בתעשיית הנתונים. מערך הנתונים של Titanic זמין ב- Kaggle, והקישור להורדתו ניתן להלן.
מערך הנתונים הזה הוא של נוסעים שנסעו בטיטאניק. יש לו פרטים כמו גיל הנוסע, מחיר הכרטיס, תא נוסעים ומין. בהתבסס על מידע זה, תצטרך לחזות אם הנוסעים הללו שרדו או לא.
זוהי בעיית סיווג בינארי פשוטה, וכל מה שאתה צריך לעשות הוא לחזות אם נוסע מסוים שרד. הדבר הטוב ביותר במערך הנתונים הזה הוא שכל העיבוד המקדים נעשה עבורך. יש לך מערך נתונים נחמד ונקי כדי לאמן את מודל למידת המכונה שלך.
מכיוון שזו בעיית סיווג, אתה יכול לבחור להשתמש באלגוריתמים כמו רגרסיה לוגיסטית, עצי החלטה ויערות אקראיים כדי לבנות את המודל החזוי. אתה יכול גם לבחור מודלים להגברת שיפוע כמו מיון XGBoost עבור פרויקט למידת מכונה ברמת מתחילים זה כדי להשיג תוצאות טובות יותר.
מערך נתונים: ערכת נתונים של Kaggle Titanic
2. חיזוי מחירי בית
נתוני מחירי בתים הם גם נהדרים להתחיל איתם אם אתה מתחיל בלמידת מכונה. פרויקט זה ישתמש במערך הנתונים של תמחור הבית הזמין ב- Kaggle. משתנה היעד במערך הנתונים הזה הוא המחיר של בית מסוים, אותו תצטרכו לחזות באמצעות מידע כמו שטח הבית, מספר חדרי השינה, מספר חדרי האמבטיה ושירותים.
זו בעיית רגרסיה, ואתה יכול להשתמש בטכניקות כמו רגרסיה לינארית כדי לבנות את המודל. אתה יכול גם לנקוט בגישה מתקדמת יותר ולהשתמש ברגרסור אקראי של יער או הגברת שיפוע כדי לחזות את מחירי הדירות.
מערך הנתונים הזה כולל 80 עמודות, לא כולל משתנה היעד. תצטרך להשתמש בכמה טכניקות להפחתת מימדים כדי לבחור תכונות ידנית מכיוון שהוספת יותר מדי משתנים עלולה לגרום למודל שלך לבצע ביצועים גרועים.
ישנם גם משתנים קטגוריים רבים במערך הנתונים, כך שאתה צריך להתמודד איתם כראוי באמצעות טכניקות כמו קידוד חד פעמי או קידוד תווית.
לאחר בניית הדגם שלך, תוכל להגיש את התחזיות שלך לתחרות תמחור הבתים בקאגגל, מכיוון שהוא עדיין פתוח. ה-RMSE הטוב ביותר שהושג על ידי מתחרים הוא 0, ואנשים רבים השיגו תוצאות טובות כמו 0.15 בעזרת טכניקות רגרסיה ושיפור גרדיאנט.
מערך נתונים: ערכת נתונים של חיזוי מחירי בית Kaggle
3. חיזוי איכות היין
מערך החיזוי של איכות היין פופולרי מאוד גם בקרב מתחילים בתעשיית הנתונים. בפרויקט זה, תשתמש בחומציות קבועה, חומציות נדיפה, אלכוהול וצפיפות כדי לחזות את איכות היין האדום.
ניתן להתייחס לזה כבעיית סיווג או רגרסיה. ה איכות היין המשתנה שאתה צריך לחזות במערך הנתונים נע בין 0-10, כך שאתה יכול לבנות מודל רגרסיה לניבוי. גישה נוספת שאתה יכול לנקוט היא לפרק את הערכים (מ-0-10) למרווחים נפרדים ולהמיר אותם למשתנים קטגוריים. אתה יכול ליצור שלוש קטגוריות, למשל - נמוך, בינוני, ו גָבוֹהַ.
לאחר מכן תוכל לבנות סיווג עץ החלטות או כל מודל סיווג כדי לבצע את החיזוי. זהו מערך נתונים נקי ופשוט יחסית לתרגול מיומנויות למידת מכונה של רגרסיה וסיווג.
מערך נתונים: ערכת נתונים של איכות יין אדום של Kaggle
4. חיזוי מחלות לב
אם אתה מחפש לחקור מערך נתונים בתעשיית הבריאות, זהו מערך נתונים נהדר ברמת מתחילים להתחיל איתו. מערך נתונים זה משמש לניבוי הסיכון של 10 שנים ל-CHD (מחלת לב כלילית). המשתנים התלויים במערך נתונים זה הם גורמי הסיכון למחלות לב, כולל סוכרת, עישון, לחץ דם גבוה ורמות כולסטרול גבוהות.
המשתנה הבלתי תלוי הוא הסיכון של 10 שנים ל-CHD. זוהי בעיית סיווג בינארי, ומשתנה היעד הוא 0 או 1-0 עבור החולים שמעולם לא פיתחו מחלת לב ו-1 עבור החולים שעשו זאת. אתה יכול לבצע בחירת תכונות במערך נתונים זה כדי לזהות תכונות התורמות ביותר לסיכון לב. לאחר מכן, תוכל להתאים מודל סיווג למשתנים הבלתי תלויים.
מערך הנתונים הזה אינו מאוזן מאוד מכיוון שרבים מהמטופלים במערך נתונים זה עשו זאת לֹא לפתח מחלת לב. יש לטפל במערך נתונים לא מאוזן באמצעות טכניקות הנדסת תכונות נכונות כמו דגימת יתר, כוונון משקל או תת דגימה. אם לא יטופל נכון, תקבל מודל שפשוט מנבא את מחלקת הרוב עבור כל נקודת נתונים ולא יכול לזהות חולים עשה לפתח מחלת לב. זהו מערך נתונים מצוין עבורך לתרגל את כישורי הנדסת התכונות ולמידת המכונה שלך.
מערך נתונים: מערך נתונים של מחלות לב של Kaggle
5. סיווג ספרות MNIST
אל האני MNIST מערך הנתונים הוא אבן הדרך שלך לתחום הלמידה העמוקה. מערך נתונים זה מורכב מתמונות בגווני אפור של ספרות בכתב יד מ-0 עד 9. המשימה שלך תהיה לזהות את הספרה באמצעות אלגוריתם למידה עמוקה. זוהי בעיית סיווג מרובת מחלקות עם עשר מחלקות פלט אפשריות. אתה יכול להשתמש ב-CNN (Convolutional Neural Network) כדי לבצע סיווג זה.
מערך הנתונים של MNIST בנוי בתוך ספריית Keras ב- Python. כל מה שאתה צריך לעשות הוא להתקין את Keras, לייבא את הספרייה ולטעון את מערך הנתונים. מערך הנתונים הזה כולל כ-60,000 תמונות כך שתוכלו להשתמש בכ-80% מהתמונות הללו לאימון ועוד 20% לבדיקות.
מערך נתונים: ערכת נתונים של זיהוי ספרות של Kaggle
6. ניתוח סנטימנט של נתוני טוויטר
ישנם מערכי נתונים רבים של ניתוח סנטימנטים של טוויטר זמינים ב-Kaggle. אחד ממערכי הנתונים הפופולריים ביותר נקרא sentiment140, המכיל 1.6 מיליון ציוצים מעובדים מראש. זהו מערך נתונים נהדר להתחיל איתו אם אתה חדש בניתוח סנטימנטים.
ציוצים אלה עברו הערות, ומשתנה היעד הוא הסנטימנט. הערכים הייחודיים בעמודה זו הם 0 (שלילי), 2 (ניטרלי) ו-4 (חיובי).
לאחר עיבוד מקדים של ציוצים אלה והמרתם לוקטורים, אתה יכול להשתמש במודל סיווג כדי לאמן אותם עם הסנטימנט המשויך להם. אתה יכול להשתמש באלגוריתמים כמו רגרסיה לוגיסטית, מסווג עץ החלטות או מסווג XGBoost עבור משימה זו.
חלופה נוספת היא להשתמש במודל למידה עמוקה כמו LSTM כדי להגיע לחיזוי סנטימנט. עם זאת, זוהי גישה קצת יותר מאתגרת ונכנסת לקטגוריית הפרויקטים המתקדמים.
אתה יכול גם להשתמש במערך הנתונים המסומן הזה כבסיס למשימות ניתוח סנטימנטים עתידיות.
אם יש לך ציוצים שאתה רוצה לאסוף ולבצע ניתוח סנטימנט עליהם, אתה יכול להשתמש במודל שעבר הכשרה בעבר על sentiment140 כדי ליצור תחזיות עתידיות.
מערך נתונים: ערכת נתונים של Kaggle Sentiment140
7. חיזוי סוכרת הודית של פימה
מערך הנתונים של Pima Indian Diabetes משמש לניבוי אם למטופל יש סוכרת על סמך מדידות אבחון.
בהתבסס על משתנים כמו BMI, גיל ואינסולין, המודל ינבא סוכרת בחולים. למערך הנתונים הזה יש תשעה משתנים - שמונה משתנים בלתי תלויים ומשתנה יעד אחד.
משתנה היעד הוא 'סוכרת', אז אתה תחזה 1 עבור נוכחות של סוכרת או 0 עבור היעדר סוכרת.
זוהי בעיית סיווג להתנסות במודלים כמו רגרסיה לוגיסטית, מסווג עץ החלטות או מסווג יער אקראי.
כל המשתנים הבלתי תלויים במערך הנתונים הזה הם מספריים, אז זהו מערך נתונים נהדר להתחיל איתו אם יש לך ניסיון מינימלי בהנדסת תכונות.
זהו מערך נתונים של Kaggle הפתוח למתחילים. ישנם מדריכים רבים באינטרנט המדריכים אותך דרך קידוד הפתרון ב- Python ו-R. מדריכי מחברת אלו הם דרך מצוינת ללמוד וללכלך את הידיים שלך כדי שתוכל לעבור לפרויקטים מורכבים יותר.
מערך נתונים: Kaggle Pima סוכרת אינדיאנית
8. סיווג סרטן השד
מערך הנתונים לסיווג סרטן השד ב- Kaggle הוא עוד דרך מצוינת לתרגל את מיומנויות הלמידה המכונה וכישורי הבינה המלאכותית שלך.
רוב בעיות למידת מכונה בפיקוח בעולם האמיתי הן בעיות סיווג כמו זו. אתגר מרכזי בזיהוי סרטן השד הוא חוסר היכולת להבחין בין גידולים שפירים (לא סרטניים) לממאירים (סרטניים). למערך הנתונים יש משתנים כמו "radius_mean" ו-"area_mean" של הגידול, ותצטרכו לסווג על סמך תכונות אלו אם הגידול סרטני או לא. מערך נתונים זה קל יחסית לעבודה מכיוון שאין צורך לבצע עיבוד נתונים משמעותי מראש. זהו גם מערך נתונים מאוזן היטב, מה שהופך את המשימה שלך לניתנת לניהול מכיוון שאינך צריך לעשות הרבה הנדסת תכונות.
אימון מסווג רגרסיה לוגיסטית פשוט על מערך הנתונים הזה יכול לתת לך דיוק עד 0.90.
מערך נתונים: מערך נתונים של סיווג סרטן השד Kaggle
9. חיזוי קופות TMDB
מערך הנתונים של Kaggle הוא דרך מצוינת לתרגל את כישורי הרגרסיה שלך. הוא מורכב מכ-7000 סרטים, ותצטרכו להשתמש במשתנים הקיימים כדי לחזות את הכנסות הסרט.
נקודות הנתונים הקיימות כוללות צוות, צוות, תקציב, שפות ותאריכי שחרור. ישנם 23 משתנים במערך הנתונים, אחד מהם הוא משתנה היעד.
מודל רגרסיה לינארית בסיסי יכול לתת לך ריבוע R של מעל 0.60, כך שתוכל להשתמש בזה כמודל החיזוי הבסיסי שלך. נסה לנצח את הציון הזה באמצעות טכניקות כמו XGBoost רגרסיה או Light GBM.
מערך נתונים זה מעט יותר מורכב מהקודם מכיוון שבעמודות מסוימות יש נתונים במילונים מקוננים. אתה צריך לעשות עיבוד מוקדם נוסף כדי לחלץ את הנתונים האלה בפורמט שמיש כדי לאמן מודל עליו.
חיזוי הכנסות הוא פרויקט נהדר להציג בתיק העבודות שלך, מכיוון שהוא מספק ערך עסקי למגוון תחומים מחוץ לתעשיית הקולנוע.
מערך נתונים: ערכת נתונים של חיזוי קופות Kaggle TMDB
10. פילוח לקוחות בפייתון
מערך הנתונים לפילוח לקוחות ב- Kaggle הוא דרך מצוינת להתחיל עם למידת מכונה ללא פיקוח. מערך נתונים זה מורכב מפרטי לקוחות כמו גילם, מגדרם, ההכנסה השנתית וציון ההוצאות שלהם.
אתה צריך להשתמש במשתנים אלה כדי לבנות פלחי לקוחות. יש לקבץ לקוחות דומים לאשכולות דומים. אתה יכול להשתמש באלגוריתמים כמו K-Means clustering או clustering היררכי עבור משימה זו. מודלים לפילוח לקוחות יכולים לספק ערך עסקי.
חברות רוצות לרוב להפריד בין לקוחותיהן כדי להמציא טכניקות שיווק שונות עבור כל סוג לקוח.
המטרות העיקריות של מערך נתונים זה כוללות:
- השגת פילוח לקוחות באמצעות טכניקות למידת מכונה
- זהה את לקוחות היעד שלך עבור אסטרטגיות שיווק שונות
- הבן כיצד אסטרטגיות שיווק עובדות בעולם האמיתי
בניית מודל מקבץ למשימה זו יכולה לעזור לתיק ההשקעות שלך לבלוט, ופילוח הוא מיומנות מצוינת אם אתה מחפש עבודה הקשורה לבינה מלאכותית בתעשיית השיווק.
מערך נתונים: מערך נתונים לפילוח לקוחות Kaggle Mall
פרויקטים של למידת מכונה ברמה בינונית/מתקדמת עבור קורות החיים שלך
לאחר שתסיים לעבוד על פרויקטים פשוטים של למידת מכונה כמו אלה המפורטים למעלה, תוכל לעבור לפרויקטים מאתגרים יותר.
1. חיזוי מכירות
חיזוי סדרת זמן היא טכניקת למידת מכונה המשמשת לעתים קרובות מאוד בתעשייה. לשימוש בנתוני עבר כדי לחזות מכירות עתידיות יש מספר רב של מקרי שימוש עסקיים. ניתן להשתמש במערך הנתונים של Kaggle Demand Forecasting כדי לתרגל את הפרויקט הזה.
למערך הנתונים הזה יש נתוני מכירות של 5 שנים, ותצטרך לחזות את המכירות לשלושת החודשים הבאים. ישנן עשר חנויות שונות הרשומות במערך הנתונים, ויש 50 פריטים בכל חנות.
כדי לחזות מכירות, אתה יכול לנסות שיטות שונות - ARIMA, וקטור אוטורגרסיה או למידה עמוקה. שיטה אחת שתוכל להשתמש בפרויקט זה היא למדוד את הגידול במכירות עבור כל חודש ולתעד אותו. לאחר מכן, בנה את המודל על ההבדל בין המכירות של החודש הקודם לחודש הנוכחי. התחשבות בגורמים כמו חגים ועונתיות יכולה לשפר את הביצועים של מודל למידת המכונה שלך.
מערך נתונים: חיזוי ביקוש לפריט בחנות Kaggle
2. צ'אטבוט שירות לקוחות
צ'אט בוט של שירות לקוחות משתמש בטכניקות בינה מלאכותית ולמידת מכונה כדי להשיב ללקוחות, תוך שהוא לוקח את התפקיד של נציג אנושי. צ'אט בוט אמור להיות מסוגל לענות על שאלות פשוטות כדי לספק את צרכי הלקוח.
יש כרגע שלושה סוגים של צ'אטבוטים שאתה יכול לבנות:
- צ'אטבוטים מבוססי כללים - צ'אטבוטים אלה אינם אינטליגנטים. הם ניזונים מקבוצה של כללים מוגדרים מראש ומשיבים רק למשתמשים על סמך כללים אלה. חלק מהצ'אטבוטים מסופקים גם עם קבוצה מוגדרת מראש של שאלות ותשובות ואינם יכולים לענות על שאילתות הנופלות מחוץ לתחום זה.
- צ'אטבוטים עצמאיים - צ'אטבוטים עצמאיים משתמשים בלמידת מכונה כדי לעבד ולנתח בקשת משתמש ולספק תשובות בהתאם.
- צ'אטבוטים NLP - צ'אטבוטים אלה יכולים להבין דפוסים במילים ולהבחין בין צירופי מילים שונים. הם המתקדמים ביותר מבין כל שלושת סוגי הצ'אטבוטים, מכיוון שהם יכולים להמציא מה לומר הלאה בהתבסס על דפוסי המילים עליהם הם אומנו.
צ'אטבוט NLP הוא רעיון מעניין לפרויקט למידת מכונה. תצטרך קורפוס קיים של מילים כדי לאמן את המודל שלך, ותוכל למצוא בקלות ספריות Python כדי לעשות זאת. אתה יכול גם לקבל מילון מוגדר מראש עם רשימה של צמדי שאלות ותשובות שתרצה לאמן את המודל שלך.
3. מערכת זיהוי אובייקטים של חיות בר
אם אתה גר באזור עם תצפיות תכופות של חיות בר, כדאי ליישם מערכת זיהוי עצמים כדי לזהות את נוכחותם באזור שלך. בצע את השלבים הבאים כדי לבנות מערכת כזו:
- התקן מצלמות באזור שאתה רוצה לנטר.
- הורד את כל קטעי הווידאו ושמור אותם.
- צור אפליקציית Python כדי לנתח תמונות נכנסות ולזהות חיות בר.
מיקרוסופט בנתה ממשק API לזיהוי תמונה באמצעות נתונים שנאספו ממצלמות חיות בר. הם הוציאו מודל מאומן מראש בקוד פתוח למטרה זו בשם MegaDetector.
אתה יכול להשתמש במודל מאומן מראש ביישום Python שלך כדי לזהות חיות בר מהתמונות שנאספו. זהו אחד מפרויקטי ה-ML המלהיבים ביותר שהוזכרו עד כה והוא די פשוט ליישום בשל הזמינות של מודל שהוכשר מראש למטרה זו.
API: מגה-גלאי
4. מערכת Spotify Music Recommender
Spotify משתמשת ב-AI כדי להמליץ על מוזיקה למשתמשים שלה. אתה יכול לנסות לבנות מערכת ממליצים על סמך נתונים זמינים לציבור ב-Spotify.
ל- Spotify יש API שבו אתה יכול להשתמש כדי לאחזר נתוני אודיו - אתה יכול למצוא תכונות כמו שנת השחרור, מפתח, פופולריות ואמן. כדי לגשת ל-API זה ב-Python, אתה יכול להשתמש בספרייה בשם Spotipy.
אתה יכול גם להשתמש במערך הנתונים של Spotify ב- Kaggle הכולל כ-600 אלף שורות. באמצעות מערכי נתונים אלה, אתה יכול להציע את החלופה הטובה ביותר למוזיקאי האהוב על כל משתמש. אתה יכול גם להציע המלצות שירים על סמך התוכן והז'אנר המועדפים על כל משתמש.
ניתן לבנות מערכת ממליצים זו באמצעות clustering K-Means - נקודות נתונים דומות יקובצו. אתה יכול להמליץ למשתמש הקצה על שירים עם מרחק מינימלי בתוך אשכול ביניהם.
לאחר שבנית את מערכת הממליצים, תוכל גם להפוך אותה לאפליקציית Python פשוטה ולפרוס אותה. אתה יכול לגרום למשתמשים להזין את השירים האהובים עליהם ב-Spotify, ואז להציג את המלצות הדגמים שלך על המסך בעלות הדמיון הגבוה ביותר לשירים שהם נהנו.
מערך נתונים: Kaggle מערך נתונים של Spotify
5. ניתוח סל שוק
ניתוח סל שוק היא טכניקה פופולרית המשמשת קמעונאים לזיהוי פריטים שניתן למכור יחד.
לדוגמה:
לפני כמה שנים, אנליסט מחקר זיהה מתאם בין מכירות בירה וחיתולים. לרוב, בכל פעם שלקוח נכנס לחנות כדי לקנות בירה, הוא גם קנה יחד חיתולים.
בשל כך, חנויות החלו למכור יחד בירה וחיתולים באותו מעבר כאסטרטגיה שיווקית להגדלת המכירות. וזה עבד.
ההנחה הייתה שלבירה וחיתולים יש מתאם גבוה מכיוון שגברים קנו אותם לעתים קרובות יחד. גברים היו נכנסים לחנות כדי לקנות בירה, יחד עם עוד כמה חפצי בית למשפחתם (כולל חיתולים). זה נראה כמו מתאם די בלתי אפשרי, אבל זה קרה.
ניתוח סל שוק יכול לעזור לחברות לזהות מתאמים נסתרים בין פריטים שנרכשים לעתים קרובות ביחד. חנויות אלו יכולות לאחר מכן למקם את הפריטים שלהן בצורה שתאפשר לאנשים למצוא אותם בקלות רבה יותר.
אתה יכול להשתמש במערך הנתונים של Market Basket Optimization ב-Kaggle כדי לבנות ולהכשיר את המודל שלך. האלגוריתם הנפוץ ביותר המשמש לביצוע ניתוח סל שוק הוא אלגוריתם אפריורי.
מערך נתונים: ערכת נתונים של אופטימיזציית סל Kaggle Market
6. משך הנסיעה במונית בניו יורק
למערך הנתונים יש משתנים הכוללים קואורדינטות התחלה וסיום של נסיעה במונית, זמן ומספר הנוסעים. המטרה של פרויקט ML זה היא לחזות את משך הטיול עם כל המשתנים הללו. זו בעיית רגרסיה.
משתנים כמו זמן וקואורדינטות צריכים לעבור עיבוד מראש כראוי ולהמיר אותם לפורמט מובן. הפרויקט הזה לא פשוט כמו שהוא נראה. למערך הנתונים הזה יש גם כמה חריגים שהופכים את החיזוי למורכב יותר, אז תצטרך לטפל בזה באמצעות טכניקות הנדסת תכונות.
קריטריוני ההערכה לתחרות Kaggle של טיול מוניות בניו יורק הם RMSLE או שגיאת ה-Root Mean Squared Log Error. ההגשה העליונה על Kaggle קיבלה ציון RMSLE של 0.29, ולמודל הבסיס של Kaggle יש RMSLE של 0.89.
אתה יכול להשתמש בכל אלגוריתם רגרסיה כדי לפתור את פרויקט Kaggle הזה, אבל המתחרים בעלי הביצועים הגבוהים ביותר של אתגר זה השתמשו במודלים להגברת שיפוע או בטכניקות למידה עמוקה.
מערך נתונים: ערכת נתונים של משך נסיעת מונית של Kaggle NYC
7. זיהוי דואר זבל בזמן אמת
בפרויקט זה, אתה יכול להשתמש בטכניקות למידת מכונה כדי להבחין בין הודעות דואר זבל (לא לגיטימיות) והודעות ham (לגיטימיות).
כדי להשיג זאת, אתה יכול להשתמש במערך הנתונים של Kaggle SMS Spam Collection. מערך נתונים זה מכיל קבוצה של כ-5K הודעות שסומנו כדואר זבל או חזיר.
תוכל לנקוט בצעדים הבאים כדי לבנות מערכת לזיהוי דואר זבל בזמן אמת:
- השתמש במערך הנתונים של אוסף ספאם של SMS של Kaggle כדי לאמן מודל למידת מכונה.
- צור שרת חדר צ'אט פשוט ב-Python.
- פרוס את מודל למידת המכונה בשרת חדר הצ'אט שלך וודא שכל התעבורה הנכנסת עוברת דרך המודל.
- אפשר לעבור להודעות רק אם הן מסווגות כשינקין. אם הם ספאם, החזר הודעת שגיאה במקום זאת.
כדי לבנות את מודל למידת המכונה, תחילה עליך לעבד מראש את הודעות הטקסט הקיימות במערך הנתונים של איסוף דואר זבל של SMS של Kaggle. לאחר מכן, המר את ההודעות הללו לשקית מילים כך שניתן יהיה להעביר אותן בקלות למודל הסיווג שלך לצורך חיזוי.
מערך נתונים: Kaggle SMS איסוף ספאם ערכת נתונים
8. אפליקציית חיזוי אישיות מאיירס-בריגס
אתה יכול ליצור אפליקציה כדי לחזות את סוג האישיות של המשתמש על סמך מה שהוא אומר.
מחוון סוג מאיירס-בריגס מחלק אנשים ל-16 סוגי אישיות שונים. זהו אחד ממבחני האישיות הפופולריים ביותר בעולם.
אם תנסה למצוא את סוג האישיות שלך באינטרנט, תמצא הרבה חידונים מקוונים. לאחר שתענה על כ-20-30 שאלות, תוקצה לסוג אישיות.
עם זאת, בפרויקט זה, אתה יכול להשתמש בלמידת מכונה כדי לחזות את סוג האישיות של כל אחד רק על סמך משפט אחד.
להלן הצעדים שתוכל לנקוט כדי להשיג זאת:
- בנה מודל סיווג רב-מעמדי ואמן אותו במערך הנתונים של Myers-Briggs ב-Kaggle. זה כולל עיבוד מוקדם של נתונים (הסרת מילות עצירה ותווים מיותרים) וכמה הנדסת תכונות. אתה יכול להשתמש במודל למידה רדוד כמו רגרסיה לוגיסטית או מודל למידה עמוקה כמו LSTM למטרה זו.
- אתה יכול ליצור אפליקציה המאפשרת למשתמשים להזין כל משפט לפי בחירתם.
- שמור את משקלי מודל למידת המכונה שלך ושלב את המודל עם האפליקציה שלך. לאחר שמשתמש הקצה מזין מילה, הצג את סוג האישיות שלו על המסך לאחר שהמודל יבצע חיזוי.
מערך נתונים: Kaggle MBTI Type Dataset
9. מערכת זיהוי מצבי רוח + מערכת ממליצים
האם אי פעם היית עצוב והרגשת שאתה צריך לראות משהו מצחיק כדי לעודד אותך? או האם אי פעם הרגשתם כל כך מתוסכלים שהייתם צריכים להירגע ולצפות במשהו מרגיע?
פרויקט זה הוא שילוב של שני פרויקטים קטנים יותר.
אתה יכול לבנות אפליקציה שמזהה את מצב הרוח של המשתמש על סמך צילומי אינטרנט חיים והצעת סרט על סמך הבעתו של המשתמש.
כדי לבנות את זה, אתה יכול לבצע את הצעדים הבאים:
- צור אפליקציה שיכולה לקלוט עדכון וידאו חי.
- השתמש ב-API לזיהוי פנים של Python כדי לזהות פרצופים ורגשות על אובייקטים בפיד הווידאו.
- לאחר סיווג הרגשות הללו לקטגוריות שונות, התחילו לבנות את מערכת הממליצים. זו יכולה להיות קבוצה של ערכים מקודדים עבור כל רגש, מה שאומר שאינך צריך לערב למידת מכונה עבור ההמלצות.
- לאחר שתסיים לבנות את האפליקציה, תוכל לפרוס אותה ב-Heroku, Dash או שרת אינטרנט.
API: API לזיהוי פנים
10. ניתוח סנטימנטים של הערות יוטיוב
בפרויקט זה, אתה יכול ליצור לוח מחוונים המנתח את הסנטימנט הכולל של יוטיוברים פופולריים.
למעלה מ-2 מיליארד משתמשים צופים בסרטוני YouTube לפחות פעם בחודש. יוטיוברים פופולריים צוברים מאות מיליארדי צפיות עם התוכן שלהם. עם זאת, רבים מהמשפיעים הללו ספגו אש עקב מחלוקות בעבר, והתפיסה הציבורית משתנה כל הזמן.
אתה יכול לבנות מודל ניתוח סנטימנטים וליצור לוח מחוונים כדי לדמיין סנטימנטים סביב ידוענים לאורך זמן.
כדי לבנות את זה, אתה יכול לבצע את הצעדים הבאים:
- גרד הערות של הסרטונים על ידי היוטיוברים שאתה רוצה לנתח.
- השתמש במודל ניתוח סנטימנטים מאומן מראש כדי ליצור תחזיות על כל הערה.
- דמיין את התחזיות של הדגם על לוח מחוונים. אתה יכול אפילו ליצור אפליקציית לוח מחוונים באמצעות ספריות כמו Dash (Python) או Shiny (R).
- אתה יכול להפוך את לוח המחוונים לאינטראקטיבי על ידי מתן אפשרות למשתמשים לסנן סנטימנטים לפי מסגרת זמן, שם של YouTuber וז'אנר וידאו.
<br> סיכום
תעשיית למידת המכונה גדולה ומלאת הזדמנויות. אם אתה רוצה לפרוץ לענף ללא רקע חינוכי רשמי, הדרך הטובה ביותר להראות שיש לך את הכישורים הדרושים לביצוע העבודה היא באמצעות פרויקטים.
היבט למידת המכונה של רוב הפרויקטים המפורטים לעיל הוא די פשוט. בשל הדמוקרטיזציה של למידת מכונה, תהליך בניית המודל יכול להיות מושג בקלות באמצעות מודלים וממשקי API מאומנים מראש.
פרויקטי בינה מלאכותית בקוד פתוח כמו Keras ו-FastAI סייעו גם הם להאיץ את תהליך בניית המודל. החלק המסובך של למידת מכונה ו פרויקטים של מדעי נתונים הוא איסוף הנתונים, העיבוד המוקדם והפריסה. אם תמצא עבודה בלמידת מכונה, רוב האלגוריתמים יהיו די פשוטים לבנייה. זה ייקח רק יום או יומיים ליצור מודל חיזוי מכירות. אתה תבלה את רוב זמנך במציאת מקורות נתונים מתאימים והכנסת המודלים שלך לייצור כדי להפיק ערך עסקי.
מְקוֹרִי. פורסם מחדש באישור.
מידע נוסף:
הסיפורים הגדולים ביותר ב 30 יום | |||||
---|---|---|---|---|---|
|
|
מקור: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- גישה
- חֶשְׁבּוֹן
- נוסף
- AI
- כּוֹהֶל
- אַלגוֹרִיתְם
- אלגוריתמים
- תעשיות
- מאפשר
- אנליזה
- מנתח
- בעלי חיים
- API
- ממשקי API
- האפליקציה
- בקשה
- אפליקציות
- AREA
- סביב
- בינה מלאכותית
- אמן
- אודיו
- אוטומטי
- זמינות
- תיק מילים
- Baseline
- יסודות
- בִּירָה
- הטוב ביותר
- B
- דם
- חיזוק
- אריזה מקורית
- קופה
- סרטן השד
- לִבנוֹת
- בִּניָן
- עסקים
- עסקים
- לִקְנוֹת
- מצלמות
- מחלת הסרטן
- מקרים
- ידוענים
- לאתגר
- chatbot
- chatbots
- מיון
- CNN
- סִמוּל
- טור
- הערות
- חברות
- תחרות
- מתחרים
- קונסולידציה
- תוכן
- רשת עצבית convolutional
- זוג
- שירות לקוחות
- לקוחות
- לזנק
- לוח מחוונים
- נתונים
- מדע נתונים
- תאריכים
- יְוֹם
- עסקה
- עץ החלטות
- למידה עמוקה
- דרישה
- חיזוי דרישה
- איתור
- סוכרת
- DID
- ספרות
- ספרות
- מַחֲלָה
- מרחק
- תחומים
- חינוך
- רגשות
- הנדסה
- נכנס
- Excel
- ניסיון
- לְנַסוֹת
- פָּנִים
- זיהוי פנים
- פנים
- משפחה
- מאפיין
- תכונות
- הפד
- סרט צילום
- אש
- ראשון
- מתאים
- לעקוב
- פוּרמָט
- מלא
- מצחיק
- עתיד
- מין
- שערים
- טוב
- גוונים אפורים
- גדול
- בריאות
- תעשיית הבריאות
- גָבוֹהַ
- לִשְׂכּוֹר
- חגים
- בית
- בית
- איך
- HTTPS
- מאות
- רעיון
- הזדהות
- לזהות
- תמונה
- זיהוי תמונה
- כולל
- הַכנָסָה
- להגדיל
- תעשיות
- תעשייה
- משפיעים
- מידע
- מוֹדִיעִין
- אינטראקטיבי
- אינטרנט
- IT
- עבודה
- מקומות תעסוקה
- keras
- מפתח
- שפות
- גָדוֹל
- לִלמוֹד
- למד
- למידה
- רמה
- סִפְרִיָה
- אוֹר
- קשר
- לינקדין
- רשימה
- לִטעוֹן
- ארוך
- למידת מכונה
- טכניקות למידת מכונות
- הרוב
- עשייה
- שוק
- שיווק
- תעשיית שיווק
- למדוד
- בינוני
- גברים
- מיקרוסופט
- מִילִיוֹן
- ML
- מודל
- חודשים
- מצב רוח
- הכי פופולארי
- המהלך
- סרט
- סרטים
- כלי נגינה
- מוסיקאי
- רשת
- עצביים
- רשת עצבית
- חדשות
- NLP
- ניו יורק
- זיהוי אובייקט
- הַצָעָה
- באינטרנט
- קורס מקוון
- לפתוח
- הזדמנויות
- אחר
- פרדיגמה
- חולים
- אֲנָשִׁים
- ביצועים
- אישיות
- פופולרי
- תיק עבודות
- נבואה
- התחזיות
- להציג
- לחץ
- מחיר
- חיזוי מחירים
- תמחור
- הפקה
- פִּריוֹן
- אנשי מקצוע
- תָכְנִית
- פּרוֹיֶקט
- פרויקטים
- ציבורי
- פיתון
- איכות
- עולם אמיתי
- זמן אמת
- נסיגה
- מחקר
- תוצאות
- קמעונאים
- הכנסה
- הסיכון
- גורמי סיכון
- כללי
- מכירות
- מדע
- מדענים
- מסך
- רגש
- סט
- משמרת
- פָּשׁוּט
- מיומנויות
- SMS
- So
- נמכרים
- לפתור
- דואר זבל
- מְהִירוּת
- לבלות
- הוצאה
- Spotify
- התחלה
- החל
- חנות
- חנויות
- סיפורים
- אִסטרָטֶגִיָה
- מערכת
- יעד
- בדיקות
- בדיקות
- היסודות
- העולם
- זמן
- חלק עליון
- תְנוּעָה
- הדרכה
- הדרכות
- משתמשים
- כלי עזר
- ערך
- וִידֵאוֹ
- וידאו
- שעון
- אינטרנט
- שרת אינטרנט
- מי
- חיות בר
- יַיִן
- בתוך
- מילים
- תיק עבודות
- זרימת עבודה
- כוח עבודה
- עוֹלָם
- X
- שנה
- שנים
- YouTube
- אתה