Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

20 έργα μηχανικής εκμάθησης που θα σας προσλάβουν

Ετικέτες: Σταδιοδρομία, Μηχανική μάθηση, Σχέδιο

Αν θέλετε να εισέλθετε στην αγορά εργασίας της μηχανικής μάθησης και της επιστήμης δεδομένων, τότε θα χρειαστεί να επιδείξετε την επάρκεια των δεξιοτήτων σας, ειδικά εάν είστε αυτοδίδακτος μέσω διαδικτυακών μαθημάτων και bootcamps. Ένα χαρτοφυλάκιο έργων είναι ένας πολύ καλός τρόπος για να εξασκήσετε τη νέα σας τέχνη και να προσφέρετε πειστικές αποδείξεις ότι ένας υπάλληλος πρέπει να σας προσλάβει στον ανταγωνισμό.

σχόλια

By Χουσμπού Σαχ, Διαχειριστής περιεχομένου στο ProjectPro.

Η βιομηχανία τεχνητής νοημοσύνης και μηχανικής μάθησης ανθεί όπως ποτέ άλλοτε. Από το 2021, η αύξηση της χρήσης AI σε επιχειρήσεις θα δημιουργήσει επιχειρηματική αξία 2.9 τρισεκατομμυρίων δολαρίων. Η AI αυτοματοποίησε πολλές βιομηχανίες σε όλο τον κόσμο και άλλαξε τον τρόπο λειτουργίας τους. Οι περισσότερες μεγάλες εταιρείες ενσωματώνουν τεχνητή νοημοσύνη για να μεγιστοποιήσουν την παραγωγικότητα στη ροή εργασίας τους και βιομηχανίες όπως το μάρκετινγκ και η υγειονομική περίθαλψη έχουν υποστεί μια αλλαγή παραδείγματος λόγω της ενοποίησης της τεχνητής νοημοσύνης.

Πηγή εικόνας: Unsplash

Εξαιτίας αυτού, τα τελευταία χρόνια υπήρξε αυξανόμενη ζήτηση για επαγγελματίες τεχνητής νοημοσύνης. Σημειώθηκε σχεδόν 100% αύξηση στις αναρτήσεις θέσεων εργασίας που σχετίζονται με την τεχνητή νοημοσύνη και τη μηχανική μάθηση από το 2015 έως το 2018. Αυτός ο αριθμός έχει αυξηθεί έκτοτε και προβλέπεται να αυξηθεί το 2021.

Αν θέλετε να εισέλθετε στη βιομηχανία μηχανικής εκμάθησης, τα καλά νέα είναι ότι δεν υπάρχει έλλειψη διαθέσιμων θέσεων εργασίας. Οι εταιρείες χρειάζονται ένα ταλαντούχο εργατικό δυναμικό που να είναι ικανό να πρωτοστατήσει στη στροφή προς τη μηχανική μάθηση. Ωστόσο, η αγορά εργασίας διεισδύει από ανθρώπους που θέλουν να εισχωρήσουν στη βιομηχανία δεδομένων. Δεδομένου ότι κανένα συγκεκριμένο πρόγραμμα σπουδών δεν απευθύνεται σε μαθητές που θέλουν να μάθουν μηχανική μάθηση, πολλοί επίδοξοι επαγγελματίες ML είναι αυτοδίδακτοι.

Υπάρχουν πάνω από 4 εκατομμύρια μαθητές εγγεγραμμένοι στο διαδικτυακό μάθημα μηχανικής εκμάθησης του Andrew Ng.

Δυστυχώς, η εγγραφή σε διαδικτυακά μαθήματα ή η εκμάθηση μηχανικής εκμάθησης Bootcamp σας βοηθά να μάθετε τις θεωρητικές έννοιες, αλλά δεν σας προετοιμάζει για δουλειά στον κλάδο. Υπάρχει πολύ περισσότερη πρακτική δουλειά που πρέπει να γίνει, έχοντας μάθει τη θεωρία. Ας υποθέσουμε ότι γνωρίζετε τα βασικά των αλγορίθμων μηχανικής μάθησης - καταλαβαίνετε πώς λειτουργούν τα μοντέλα παλινδρόμησης και ταξινόμησης και γνωρίζετε τους διαφορετικούς τύπους μεθόδων ομαδοποίησης.

Πώς θα εξασκήσετε τις δεξιότητες που μάθατε για να λύσετε ένα πραγματικό πρόβλημα; Η απλή απάντηση είναι: Πρακτική, Εξάσκηση και Πρακτική ποικίλη έργα μηχανικής μάθησης.

Μόλις ολοκληρώσετε την εκμάθηση θεωρητικών εννοιών, θα πρέπει να αρχίσετε να εργάζεστε σε έργα τεχνητής νοημοσύνης και μηχανικής μάθησης. Αυτά τα έργα θα σας δώσουν την απαραίτητη εξάσκηση για να βελτιώσετε τις δεξιότητές σας στον τομέα και, ταυτόχρονα, αποτελούν μια μεγάλη προστιθέμενη αξία στο χαρτοφυλάκιό σας μηχανικής εκμάθησης.

Χωρίς πολλή φασαρία, ας εξερευνήσουμε μερικές ιδέες για έργα ML που όχι μόνο θα κάνουν το χαρτοφυλάκιό σας να φαίνεται καλό, αλλά θα βελτιώσουν επίσης σημαντικά τις δεξιότητές σας μηχανικής εκμάθησης. Αυτή είναι μια επιμελημένη λίστα με μερικά από τα καλύτερα έργα μηχανικής μάθησης για φοιτητές, επίδοξους επαγγελματίες μηχανικής μάθησης και άτομα από μη τεχνικούς τομείς. Μπορείτε να εργαστείτε σε αυτά τα έργα ανεξάρτητα από το υπόβαθρό σας, αρκεί να έχετε κάποιες δεξιότητες κωδικοποίησης και τεχνογνωσίας μηχανικής μάθησης. Αυτή είναι μια λίστα με έργα μηχανικής εκμάθησης αρχαρίου και προχωρημένου επιπέδου.

Εάν είστε νέοι στη βιομηχανία δεδομένων και έχετε μικρή εμπειρία με έργα πραγματικής ζωής, ξεκινήστε με έργα ML αρχάριου προτού προχωρήσετε σε πιο απαιτητικά.

Έργα μηχανικής μάθησης για αρχάριους

1. Kaggle Titanic Prediction

Το πρώτο έργο σε αυτήν τη λίστα είναι ένα από τα πιο απλά έργα ML που μπορείτε να αναλάβετε. Αυτό το έργο συνιστάται για την ολοκλήρωση των αρχάριων στη βιομηχανία δεδομένων. Το σύνολο δεδομένων του Τιτανικού είναι διαθέσιμο στο Kaggle και ο σύνδεσμος για τη λήψη του δίνεται παρακάτω.

Αυτό το σύνολο δεδομένων είναι των επιβατών που ταξίδεψαν με τον τιτάνιο. Έχει λεπτομέρειες όπως ηλικία επιβατών, ναύλο εισιτηρίου, καμπίνα και φύλο. Με βάση αυτές τις πληροφορίες, θα πρέπει να προβλέψετε αν αυτοί οι επιβάτες επέζησαν ή όχι.

Είναι ένα απλό πρόβλημα δυαδικής ταξινόμησης και το μόνο που χρειάζεται να κάνετε είναι να προβλέψετε εάν ένας συγκεκριμένος επιβάτης επέζησε. Το καλύτερο πράγμα σχετικά με αυτό το σύνολο δεδομένων είναι ότι όλη η προεπεξεργασία γίνεται για εσάς. Έχετε ένα ωραίο, καθαρό σύνολο δεδομένων για να εκπαιδεύσετε το μοντέλο μηχανικής εκμάθησης.

Επειδή πρόκειται για πρόβλημα ταξινόμησης, μπορείτε να επιλέξετε να χρησιμοποιήσετε αλγόριθμους όπως λογιστική παλινδρόμηση, δέντρα αποφάσεων και τυχαία δάση για να δημιουργήσετε το μοντέλο πρόβλεψης. Μπορείτε επίσης να επιλέξετε μοντέλα ενίσχυσης κλίσης, όπως ένας ταξινομητής XGBoost για αυτό το έργο μηχανικής εκμάθησης αρχαρίου, για να έχετε καλύτερα αποτελέσματα.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Titanic

2. Πρόβλεψη Τιμής Κατοικίας

Τα δεδομένα για τις τιμές των κατοικιών είναι επίσης εξαιρετικά για να ξεκινήσετε αν είστε αρχάριοι στη μηχανική εκμάθηση. Αυτό το έργο θα χρησιμοποιήσει το σύνολο τιμών κατοικίας που διατίθεται στο Kaggle. Η μεταβλητή -στόχος σε αυτό το σύνολο δεδομένων είναι η τιμή ενός συγκεκριμένου σπιτιού, την οποία θα πρέπει να προβλέψετε χρησιμοποιώντας πληροφορίες όπως η περιοχή του σπιτιού, ο αριθμός των υπνοδωματίων, ο αριθμός των μπάνιων και τα βοηθητικά προγράμματα.

Είναι ένα πρόβλημα παλινδρόμησης και μπορείτε να χρησιμοποιήσετε τεχνικές όπως η γραμμική παλινδρόμηση για να δημιουργήσετε το μοντέλο. Μπορείτε επίσης να ακολουθήσετε μια πιο προηγμένη προσέγγιση και να χρησιμοποιήσετε έναν τυχαίο παλινδρομητή δασών ή μια βαθμίδα ενίσχυσης για να προβλέψετε τις τιμές των κατοικιών.

Αυτό το σύνολο δεδομένων έχει 80 στήλες, εξαιρουμένης της μεταβλητής στόχου. Θα χρειαστεί να χρησιμοποιήσετε ορισμένες τεχνικές μείωσης διαστάσεων για να επιλέξετε χειροκίνητα χαρακτηριστικά, καθώς η προσθήκη πάρα πολλών μεταβλητών μπορεί να κάνει το μοντέλο σας να έχει κακή απόδοση.

Υπάρχουν επίσης πολλές κατηγορικές μεταβλητές στο σύνολο δεδομένων, επομένως θα πρέπει να τις αντιμετωπίσετε σωστά χρησιμοποιώντας τεχνικές όπως η κωδικοποίηση μίας υψηλής ταχύτητας ή η κωδικοποίηση ετικετών.

Αφού δημιουργήσετε το μοντέλο σας, μπορείτε να υποβάλετε τις προβλέψεις σας στον διαγωνισμό τιμολόγησης κατοικιών στο Kaggle, καθώς είναι ακόμα ανοιχτός. Το καλύτερο RMSE που επιτυγχάνεται από τους ανταγωνιστές είναι το 0 και πολλοί άνθρωποι έχουν επιτύχει καλά αποτελέσματα όπως το 0.15 με τη βοήθεια τεχνικών παλινδρόμησης και αύξησης της κλίσης.

Σύνολο δεδομένων: Σετ δεδομένων πρόβλεψης τιμών Kaggle House

3. Πρόβλεψη ποιότητας οίνου

Το σύνολο δεδομένων πρόβλεψης ποιότητας οίνου είναι επίσης πολύ δημοφιλές στους αρχάριους στη βιομηχανία δεδομένων. Σε αυτό το έργο, θα χρησιμοποιείτε σταθερή οξύτητα, πτητική οξύτητα, αλκοόλ και πυκνότητα για να προβλέψετε την ποιότητα του κόκκινου κρασιού.

Αυτό μπορεί να αντιμετωπιστεί είτε ως πρόβλημα ταξινόμησης είτε ως παλινδρόμησης. ο ποιότητα κρασιού μεταβλητή που πρέπει να προβλέψετε στο σύνολο δεδομένων κυμαίνεται από 0-10, ώστε να μπορείτε να δημιουργήσετε ένα μοντέλο παλινδρόμησης για πρόβλεψη. Μια άλλη προσέγγιση που μπορείτε να ακολουθήσετε είναι να αναλύσετε τις τιμές (από 0–10) σε διακριτά διαστήματα και να τις μετατρέψετε σε κατηγορικές μεταβλητές. Μπορείτε να δημιουργήσετε τρεις κατηγορίες, για παράδειγμα — χαμηλό, μεσαίο, και ψηλά.

Στη συνέχεια, μπορείτε να δημιουργήσετε έναν ταξινομητή δέντρου αποφάσεων ή οποιοδήποτε μοντέλο ταξινόμησης για να κάνετε την πρόβλεψη. Είναι ένα σχετικά καθαρό και απλό σύνολο δεδομένων για να εξασκήσετε τις δεξιότητες παλινδρόμησης και ταξινόμησης μηχανικής μάθησης.

Σύνολο δεδομένων: Σύνολο δεδομένων ποιότητας κόκκινου κρασιού Kaggle

4. Πρόβλεψη καρδιακών παθήσεων

Αν ψάχνετε να εξερευνήσετε ένα σύνολο δεδομένων στον κλάδο της υγειονομικής περίθαλψης, αυτό είναι ένα εξαιρετικό σύνολο δεδομένων αρχάριου για αρχή. Αυτό το σύνολο δεδομένων χρησιμοποιείται για την πρόβλεψη του 10ετούς κινδύνου καρδιαγγειακής νόσου (στεφανιαίας νόσου). Οι εξαρτώμενες μεταβλητές σε αυτό το σύνολο δεδομένων είναι οι παράγοντες κινδύνου για καρδιακές παθήσεις, συμπεριλαμβανομένου του διαβήτη, του καπνίσματος, της υψηλής αρτηριακής πίεσης και των υψηλών επιπέδων χοληστερόλης.

Η ανεξάρτητη μεταβλητή είναι ο 10ετής κίνδυνος CHD. Είναι ένα πρόβλημα δυαδικής ταξινόμησης και η μεταβλητή -στόχος είναι είτε 0 είτε 1–0 για τους ασθενείς που δεν ανέπτυξαν ποτέ καρδιοπάθεια και 1 για τους ασθενείς που εμφάνισαν. Μπορείτε να εκτελέσετε κάποια επιλογή χαρακτηριστικών σε αυτό το σύνολο δεδομένων για να προσδιορίσετε τις δυνατότητες που συμβάλλουν περισσότερο στον καρδιακό κίνδυνο. Στη συνέχεια, μπορείτε να τοποθετήσετε ένα μοντέλο ταξινόμησης στις ανεξάρτητες μεταβλητές.

Αυτό το σύνολο δεδομένων είναι εξαιρετικά ανισορροπημένο επειδή πολλοί από τους ασθενείς σε αυτό το σύνολο δεδομένων το έκαναν δεν αναπτύξουν καρδιακές παθήσεις. Ένα ανισορροπημένο σύνολο δεδομένων πρέπει να αντιμετωπιστεί χρησιμοποιώντας τις σωστές τεχνικές μηχανικής χαρακτηριστικών, όπως η υπερ-δειγματοληψία, ο συντονισμός βάρους ή η υπο δειγματοληψία. Εάν δεν αντιμετωπιστεί σωστά, θα καταλήξετε σε ένα μοντέλο που απλώς προβλέπει την πλειοψηφία για κάθε σημείο δεδομένων και δεν μπορεί να προσδιορίσει ασθενείς που έκανε αναπτύξουν καρδιακές παθήσεις. Αυτό είναι ένα εξαιρετικό σύνολο δεδομένων για να εξασκήσετε τις δεξιότητές σας μηχανικής και μηχανικής μάθησης.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Heart Disease

5. Ταξινόμηση ψηφίων MNIST

Η ΜΝΙΣΤ Το σύνολο δεδομένων είναι το σκαλοπάτι σας στον τομέα της βαθιάς μάθησης. Αυτό το σύνολο δεδομένων αποτελείται από εικόνες κλίμακας του γκρι με χειρόγραφα ψηφία από το 0 έως το 9. Ο στόχος σας θα ήταν να προσδιορίσετε το ψηφίο χρησιμοποιώντας έναν αλγόριθμο βαθιάς εκμάθησης. Αυτό είναι ένα πρόβλημα ταξινόμησης πολλαπλών κλάσεων με δέκα πιθανές κλάσεις εξόδου. Μπορείτε να χρησιμοποιήσετε ένα CNN (Convolutional Neural Network) για να εκτελέσετε αυτήν την ταξινόμηση.

Το σύνολο δεδομένων MNIST είναι χτισμένο μέσα στη βιβλιοθήκη Keras στην Python. Το μόνο που χρειάζεται να κάνετε είναι να εγκαταστήσετε το Keras, να εισαγάγετε τη βιβλιοθήκη και να φορτώσετε το σύνολο δεδομένων. Αυτό το σύνολο δεδομένων περιέχει περίπου 60,000 εικόνες, ώστε να μπορείτε να χρησιμοποιήσετε περίπου το 80% αυτών των εικόνων για εκπαίδευση και άλλο 20% για δοκιμές.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Digit Recitizer

6. Ανάλυση συναισθήματος δεδομένων Twitter

Υπάρχουν πολλά σύνολα δεδομένων ανάλυσης συναισθημάτων Twitter διαθέσιμα στο Kaggle. Ένα από τα πιο δημοφιλή σύνολα δεδομένων ονομάζεται sentiment140, το οποίο περιέχει 1.6 εκατομμύρια προεπεξεργασμένα Tweets. Αυτό είναι ένα εξαιρετικό σύνολο δεδομένων για να ξεκινήσετε εάν είστε νέοι στην ανάλυση συναισθημάτων.

Αυτά τα Tweet έχουν σχολιαστεί και η μεταβλητή -στόχος είναι το συναίσθημα. Οι μοναδικές τιμές σε αυτήν τη στήλη είναι 0 (αρνητική), 2 (ουδέτερη) και 4 (θετική).

Μετά την προεπεξεργασία αυτών των Tweet και τη μετατροπή τους σε διανύσματα, μπορείτε να χρησιμοποιήσετε ένα μοντέλο ταξινόμησης για να τα εκπαιδεύσετε με το σχετικό συναίσθημά τους. Μπορείτε να χρησιμοποιήσετε αλγόριθμους όπως υλικοτεχνική παλινδρόμηση, ταξινομητή δέντρου αποφάσεων ή ταξινομητή XGBoost για αυτήν την εργασία.

Μια άλλη εναλλακτική είναι να χρησιμοποιήσετε ένα μοντέλο βαθιάς μάθησης όπως το LSTM για να καταλήξετε σε πρόβλεψη συναισθήματος. Ωστόσο, αυτή είναι μια ελαφρώς πιο απαιτητική προσέγγιση και εμπίπτει στην κατηγορία προηγμένων έργων.

Μπορείτε επίσης να χρησιμοποιήσετε αυτό το χαρακτηρισμένο σύνολο δεδομένων ως βάση για μελλοντικές εργασίες ανάλυσης συναισθημάτων.

Εάν έχετε οποιοδήποτε Tweet για το οποίο θέλετε να συλλέξετε και να κάνετε ανάλυση συναισθήματος, μπορείτε να χρησιμοποιήσετε ένα μοντέλο που έχει εκπαιδευτεί στο παρελθόν στο sentiment140 για να κάνετε μελλοντικές προβλέψεις.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Sentiment140

7. Πρόβλεψη για τον διαβήτη της Ινδίας Pima

Το Pima Indian Diabetes Dataset χρησιμοποιείται για να προβλέψει εάν ένας ασθενής έχει διαβήτη με βάση διαγνωστικές μετρήσεις.

Με βάση μεταβλητές όπως ο ΔΜΣ, η ηλικία και η ινσουλίνη, το μοντέλο θα προβλέψει τον διαβήτη σε ασθενείς. Αυτό το σύνολο δεδομένων έχει εννέα μεταβλητές - οκτώ ανεξάρτητες μεταβλητές και μία μεταβλητή στόχο.

Η μεταβλητή στόχος είναι 'Διαβήτης', έτσι θα προβλέψετε 1 για την παρουσία διαβήτη ή 0 για την απουσία διαβήτη.

Αυτό είναι ένα πρόβλημα ταξινόμησης για πειραματισμό με μοντέλα όπως η λογιστική παλινδρόμηση, ο ταξινομητής δένδρων αποφάσεων ή ο ταξινομητής τυχαίων δασών.

Όλες οι ανεξάρτητες μεταβλητές σε αυτό το σύνολο δεδομένων είναι αριθμητικές, επομένως αυτό είναι ένα εξαιρετικό σύνολο δεδομένων για να ξεκινήσετε εάν έχετε ελάχιστη εμπειρία μηχανικής χαρακτηριστικών.

Αυτό είναι ένα σύνολο δεδομένων Kaggle ανοιχτό σε αρχάριους. Υπάρχουν πολλά σεμινάρια στο διαδίκτυο που σας καθοδηγούν στην κωδικοποίηση της λύσης σε Python και R. Αυτά τα σεμινάρια για φορητούς υπολογιστές είναι ένας πολύ καλός τρόπος για να μάθετε και να λερώσετε τα χέρια σας, ώστε να προχωρήσετε σε πιο πολύπλοκα έργα.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Pima Ινδικού Διαβήτη

8. Ταξινόμηση του καρκίνου του μαστού

Το σύνολο δεδομένων ταξινόμησης καρκίνου του μαστού στο Kaggle είναι ένας άλλος εξαιρετικός τρόπος για να εξασκήσετε τη μηχανική σας μάθηση και τις δεξιότητες AI.

Τα περισσότερα εποπτευόμενα προβλήματα μηχανικής μάθησης στον πραγματικό κόσμο είναι προβλήματα ταξινόμησης όπως αυτό. Μια βασική πρόκληση στην αναγνώριση του καρκίνου του μαστού είναι η αδυναμία διάκρισης μεταξύ καλοήθων (μη καρκινικών) και κακοήθων (καρκινικών) όγκων. Το σύνολο δεδομένων έχει μεταβλητές όπως "radius_mean" και "area_mean" του όγκου και θα πρέπει να ταξινομήσετε με βάση αυτά τα χαρακτηριστικά εάν ένας όγκος είναι καρκινικός ή όχι. Αυτό το σύνολο δεδομένων είναι σχετικά εύκολο να λειτουργήσει, καθώς δεν χρειάζεται να γίνει κάποια σημαντική προεπεξεργασία δεδομένων. Είναι επίσης ένα καλά ισορροπημένο σύνολο δεδομένων, καθιστώντας το έργο σας πιο διαχειρίσιμο, καθώς δεν χρειάζεται να κάνετε πολλές μηχανικές λειτουργιών.

Η εκπαίδευση ενός απλού ταξινομητή λογιστικής παλινδρόμησης σε αυτό το σύνολο δεδομένων μπορεί να σας δώσει ακρίβεια έως 0.90.

Σύνολο δεδομένων: Σύνολο δεδομένων ταξινόμησης καρκίνου του μαστού Kaggle

9. TMDB Box Office Prediction

Αυτό το σύνολο δεδομένων Kaggle είναι ένας πολύ καλός τρόπος για να εξασκήσετε τις δεξιότητές σας παλινδρόμησης. Αποτελείται από περίπου 7000 ταινίες και θα χρειαστεί να χρησιμοποιήσετε τις μεταβλητές που υπάρχουν για να προβλέψετε τα έσοδα της ταινίας.

Τα σημεία δεδομένων που υπάρχουν περιλαμβάνουν το καστ, το συνεργείο, τον προϋπολογισμό, τις γλώσσες και τις ημερομηνίες κυκλοφορίας. Υπάρχουν 23 μεταβλητές στο σύνολο δεδομένων, μία από τις οποίες είναι η μεταβλητή στόχος.

Ένα βασικό μοντέλο γραμμικής παλινδρόμησης μπορεί να σας δώσει ένα τετράγωνο R πάνω από 0.60, ώστε να μπορείτε να το χρησιμοποιήσετε ως βασικό μοντέλο πρόβλεψης. Προσπαθήστε να κερδίσετε αυτό το σκορ χρησιμοποιώντας τεχνικές όπως παλινδρόμηση XGBoost ή Light GBM.

Αυτό το σύνολο δεδομένων είναι ελαφρώς πιο πολύπλοκο από το προηγούμενο, καθώς σε ορισμένες στήλες υπάρχουν δεδομένα σε ένθετα λεξικά. Πρέπει να κάνετε κάποια πρόσθετη προεπεξεργασία για να εξαγάγετε αυτά τα δεδομένα σε μια εύχρηστη μορφή για να εκπαιδεύσετε ένα μοντέλο σε αυτό.

Η πρόβλεψη εσόδων είναι ένα εξαιρετικό έργο για την προβολή του χαρτοφυλακίου σας, καθώς παρέχει επιχειρηματική αξία σε διάφορους τομείς εκτός της κινηματογραφικής βιομηχανίας.

Σύνολο δεδομένων: Σύνολο δεδομένων πρόβλεψης Box Office Kaggle TMDB

10. Τμηματοποίηση πελατών στην Python

Το σύνολο δεδομένων τμηματοποίησης πελατών στο Kaggle είναι ένας πολύ καλός τρόπος για να ξεκινήσετε με μη επίβλεψη μηχανικής μάθησης. Αυτό το σύνολο δεδομένων αποτελείται από στοιχεία πελατών, όπως η ηλικία, το φύλο, το ετήσιο εισόδημα και η βαθμολογία δαπανών.

Πρέπει να χρησιμοποιήσετε αυτές τις μεταβλητές για να δημιουργήσετε τμήματα πελατών. Οι πελάτες που είναι όμοιοι πρέπει να ομαδοποιηθούν σε παρόμοιες ομάδες. Μπορείτε να χρησιμοποιήσετε αλγόριθμους όπως ομαδοποίηση K-Means ή ιεραρχική ομαδοποίηση για αυτήν την εργασία. Τα μοντέλα τμηματοποίησης πελατών μπορούν να παρέχουν επιχειρηματική αξία.

Οι εταιρείες συχνά θέλουν να διαχωρίσουν τους πελάτες τους για να βρουν διαφορετικές τεχνικές μάρκετινγκ για κάθε τύπο πελάτη.

Οι κύριοι στόχοι αυτού του συνόλου δεδομένων περιλαμβάνουν:

Επίτευξη τμηματοποίησης πελατών χρησιμοποιώντας τεχνικές μηχανικής μάθησης
Προσδιορίστε τους πελάτες -στόχους σας για διαφορετικές στρατηγικές μάρκετινγκ
Κατανοήστε πώς λειτουργούν οι στρατηγικές μάρκετινγκ στον πραγματικό κόσμο

Η δημιουργία ενός μοντέλου ομαδοποίησης για αυτήν την εργασία μπορεί να βοηθήσει το χαρτοφυλάκιό σας να ξεχωρίσει και η τμηματοποίηση είναι μια εξαιρετική ικανότητα που πρέπει να έχετε εάν θέλετε να αποκτήσετε μια θέση εργασίας που σχετίζεται με την τεχνητή νοημοσύνη στον κλάδο του μάρκετινγκ.

Σύνολο δεδομένων: Σύνολο δεδομένων τμηματοποίησης πελατών Kaggle Mall

Έργα μηχανικής μάθησης μεσαίου/προχωρημένου επιπέδου για το βιογραφικό σας

Μόλις ολοκληρώσετε την εργασία σε απλά έργα μηχανικής εκμάθησης, όπως αυτά που αναφέρονται παραπάνω, μπορείτε να προχωρήσετε σε πιο απαιτητικά έργα.

1. Πρόβλεψη πωλήσεων

Η πρόβλεψη χρονοσειρών είναι μια τεχνική μηχανικής μάθησης που χρησιμοποιείται πολύ συχνά στον κλάδο. Η χρήση παλαιότερων δεδομένων για την πρόβλεψη μελλοντικών πωλήσεων έχει μεγάλο αριθμό περιπτώσεων επιχειρηματικής χρήσης. Το σύνολο δεδομένων πρόβλεψης ζήτησης Kaggle μπορεί να χρησιμοποιηθεί για την εξάσκηση αυτού του έργου.

Αυτό το σύνολο δεδομένων έχει δεδομένα πωλήσεων 5 ετών και θα πρέπει να προβλέψετε πωλήσεις για τους επόμενους τρεις μήνες. Υπάρχουν δέκα διαφορετικά καταστήματα που αναφέρονται στο σύνολο δεδομένων και υπάρχουν 50 είδη σε κάθε κατάστημα.

Για να προβλέψετε πωλήσεις, μπορείτε να δοκιμάσετε διάφορες μεθόδους - ARIMA, Vector Autoregression ή deep learning. Μια μέθοδος που μπορείτε να χρησιμοποιήσετε για αυτό το έργο είναι να μετρήσετε την αύξηση των πωλήσεων για κάθε μήνα και να την καταγράψετε. Στη συνέχεια, βασίστε το μοντέλο στη διαφορά μεταξύ των πωλήσεων του προηγούμενου μήνα και του τρέχοντος μήνα. Λαμβάνοντας υπόψη παράγοντες όπως οι διακοπές και η εποχικότητα μπορεί να βελτιώσει την απόδοση του μοντέλου μηχανικής εκμάθησης.

Σύνολο δεδομένων: Πρόβλεψη ζήτησης αντικειμένων Kaggle Store

2. Εξυπηρέτηση πελατών Chatbot

Ένα chatbot εξυπηρέτησης πελατών χρησιμοποιεί τεχνικές τεχνητής νοημοσύνης και μηχανικής μάθησης για να απαντήσει στους πελάτες, παίρνοντας το ρόλο ενός ανθρώπινου εκπροσώπου. Ένα chatbot θα πρέπει να μπορεί να απαντά σε απλές ερωτήσεις για να ικανοποιεί τις ανάγκες των πελατών.

Υπάρχουν προς το παρόν τρία είδη chatbots που μπορείτε να δημιουργήσετε:

Chatbots βάσει κανόνων-Αυτά τα chatbots δεν είναι έξυπνα. Τροφοδοτούνται με ένα σύνολο προκαθορισμένων κανόνων και απαντούν μόνο στους χρήστες με βάση αυτούς τους κανόνες. Ορισμένα chatbot παρέχονται επίσης με ένα προκαθορισμένο σύνολο ερωτήσεων και απαντήσεων και δεν μπορούν να απαντήσουν σε ερωτήματα που δεν εμπίπτουν σε αυτόν τον τομέα.
Independent Chatbots — Τα ανεξάρτητα chatbot χρησιμοποιούν μηχανική εκμάθηση για την επεξεργασία και ανάλυση του αιτήματος ενός χρήστη και την παροχή απαντήσεων ανάλογα.
NLP Chatbots - Αυτά τα chatbots μπορούν να κατανοήσουν μοτίβα σε λέξεις και να διακρίνουν μεταξύ διαφορετικών συνδυασμών λέξεων. Είναι οι πιο προηγμένοι και από τους τρεις τύπους chatbot, καθώς μπορούν να βρουν τι να πουν στη συνέχεια με βάση τα πρότυπα λέξεων στα οποία εκπαιδεύτηκαν.

Ένα NLP chatbot είναι μια ενδιαφέρουσα ιδέα έργου μηχανικής εκμάθησης. Θα χρειαστείτε ένα υπάρχον σώμα λέξεων για να εκπαιδεύσετε το μοντέλο σας και μπορείτε εύκολα να βρείτε βιβλιοθήκες Python για να το κάνετε αυτό. Μπορείτε επίσης να έχετε ένα προκαθορισμένο λεξικό με μια λίστα με ζεύγη ερωτήσεων και απαντήσεων που θα θέλατε να εκπαιδεύσετε το μοντέλο σας.

3. Σύστημα ανίχνευσης αντικειμένων άγριας ζωής

Εάν ζείτε σε μια περιοχή με συχνές παρατηρήσεις άγριων ζώων, είναι χρήσιμο να εφαρμόσετε ένα σύστημα ανίχνευσης αντικειμένων για να εντοπίσετε την παρουσία τους στην περιοχή σας. Ακολουθήστε αυτά τα βήματα για να δημιουργήσετε ένα σύστημα όπως αυτό:

Εγκαταστήστε κάμερες στην περιοχή που θέλετε να παρακολουθήσετε.
Κατεβάστε όλα τα βίντεο και αποθηκεύστε τα.
Δημιουργήστε μια εφαρμογή Python για την ανάλυση των εισερχόμενων εικόνων και την αναγνώριση άγριων ζώων.

Η Microsoft έχει δημιουργήσει ένα API αναγνώρισης εικόνας χρησιμοποιώντας δεδομένα που συλλέγονται από κάμερες άγριας ζωής. Κυκλοφόρησαν ένα προ-εκπαιδευμένο μοντέλο ανοιχτού κώδικα για το σκοπό αυτό που ονομάζεται MegaDetector.

Μπορείτε να χρησιμοποιήσετε αυτό το προεκπαιδευμένο μοντέλο στην εφαρμογή Python για να αναγνωρίσετε άγρια ζώα από τις εικόνες που συλλέγονται. Είναι ένα από τα πιο συναρπαστικά έργα ML που αναφέρθηκαν μέχρι στιγμής και είναι αρκετά απλό στην υλοποίηση λόγω της διαθεσιμότητας ενός προεκπαιδευμένου μοντέλου για αυτόν τον σκοπό.

API: MegaDetector

4. Spotify Music Recommender System

Το Spotify χρησιμοποιεί AI για να προτείνει μουσική στους χρήστες του. Μπορείτε να δοκιμάσετε να δημιουργήσετε ένα σύστημα προτάσεων με βάση τα δημόσια διαθέσιμα δεδομένα στο Spotify.

Το Spotify διαθέτει ένα API που μπορείτε να χρησιμοποιήσετε για να ανακτήσετε δεδομένα ήχου — μπορείτε να βρείτε λειτουργίες όπως το έτος κυκλοφορίας, το κλειδί, τη δημοτικότητα και τον καλλιτέχνη. Για να αποκτήσετε πρόσβαση σε αυτό το API στην Python, μπορείτε να χρησιμοποιήσετε μια βιβλιοθήκη που ονομάζεται Spotipy.

Μπορείτε επίσης να χρησιμοποιήσετε το σύνολο δεδομένων Spotify στο Kaggle που έχει περίπου 600K σειρές. Χρησιμοποιώντας αυτά τα σύνολα δεδομένων, μπορείτε να προτείνετε την καλύτερη εναλλακτική λύση για τον αγαπημένο μουσικό κάθε χρήστη. Μπορείτε επίσης να βρείτε προτάσεις τραγουδιών με βάση το περιεχόμενο και το είδος που προτιμά ο κάθε χρήστης.

Αυτό το σύστημα προτάσεων μπορεί να δημιουργηθεί χρησιμοποιώντας ομαδοποίηση K-Means-θα ομαδοποιηθούν παρόμοια σημεία δεδομένων. Μπορείτε να προτείνετε τραγούδια με ελάχιστη απόσταση εντός του συμπλέγματος μεταξύ τους στον τελικό χρήστη.

Αφού δημιουργήσετε το σύστημα προτάσεων, μπορείτε επίσης να το μετατρέψετε σε μια απλή εφαρμογή Python και να το αναπτύξετε. Μπορείτε να κάνετε τους χρήστες να εισάγουν τα αγαπημένα τους τραγούδια στο Spotify και, στη συνέχεια, να εμφανίζουν τις προτάσεις του μοντέλου σας στην οθόνη που έχουν την υψηλότερη ομοιότητα με τα τραγούδια που τους άρεσαν.

Σύνολο δεδομένων: Σύνολο δεδομένων Kaggle Spotify

5. Ανάλυση Καλαθιού Αγοράς

Η Ανάλυση Καλαθιού Αγοράς είναι μια δημοφιλής τεχνική που χρησιμοποιείται από τους λιανοπωλητές για τον εντοπισμό αντικειμένων που μπορούν να πωληθούν μαζί.

Για παράδειγμα:

Πριν από μερικά χρόνια, ένας ερευνητής αναλυτής εντόπισε μια συσχέτιση μεταξύ των πωλήσεων μπύρας και πάνας. Τις περισσότερες φορές, κάθε φορά που ένας πελάτης έμπαινε στο κατάστημα για να αγοράσει μια μπύρα, αγόραζαν και πάνες μαζί.

Εξαιτίας αυτού, τα καταστήματα άρχισαν να πωλούν μπύρα και πάνες μαζί στον ίδιο διάδρομο ως στρατηγική μάρκετινγκ για την αύξηση των πωλήσεων. Και λειτούργησε.

Θεωρήθηκε ότι η μπύρα και οι πάνες είχαν υψηλή συσχέτιση καθώς τα αρσενικά τα αγόραζαν συχνά μαζί. Οι άντρες έμπαιναν στο κατάστημα για να αγοράσουν μια μπύρα, μαζί με πολλά άλλα είδη σπιτιού για την οικογένειά τους (συμπεριλαμβανομένων των πάνων). Αυτό φαίνεται σαν ένας αρκετά αδύνατος συσχετισμός, αλλά συνέβη.

Η Ανάλυση Καλαθιού Αγοράς μπορεί να βοηθήσει τις εταιρείες να εντοπίσουν κρυφούς συσχετισμούς μεταξύ αντικειμένων που αγοράζονται συχνά μαζί. Αυτά τα καταστήματα μπορούν στη συνέχεια να τοποθετήσουν τα αντικείμενά τους με τρόπο που να επιτρέπει στους ανθρώπους να τα βρίσκουν ευκολότερα.

Μπορείτε να χρησιμοποιήσετε το σύνολο δεδομένων του Market Basket Optimization στο Kaggle για να δημιουργήσετε και να εκπαιδεύσετε το μοντέλο σας. Ο πιο συχνά χρησιμοποιούμενος αλγόριθμος που χρησιμοποιείται για την εκτέλεση της Ανάλυσης Καλαθιού Αγοράς είναι ο αλγόριθμος Apriori.

Σύνολο δεδομένων: Σύνολο δεδομένων βελτιστοποίησης καλαθιού Kaggle Market

6. Διάρκεια ταξιδιού με ταξί στη Νέα Υόρκη

Το σύνολο δεδομένων έχει μεταβλητές που περιλαμβάνουν συντεταγμένες έναρξης και λήξης ενός ταξιδιού ταξί, χρόνο και τον αριθμό των επιβατών. Ο στόχος αυτού του έργου ML είναι να προβλέψει τη διάρκεια του ταξιδιού με όλες αυτές τις μεταβλητές. Είναι πρόβλημα παλινδρόμησης.

Μεταβλητές όπως ο χρόνος και οι συντεταγμένες πρέπει να υποβληθούν σε κατάλληλη προεπεξεργασία και να μετατραπούν σε κατανοητή μορφή. Αυτό το έργο δεν είναι τόσο απλό όσο φαίνεται. Αυτό το σύνολο δεδομένων έχει επίσης ορισμένες ακραίες τιμές που κάνουν την πρόβλεψη πιο περίπλοκη, οπότε θα πρέπει να το χειριστείτε με τεχνικές μηχανικής χαρακτηριστικών.

Τα κριτήρια αξιολόγησης για αυτόν τον διαγωνισμό NYC Taxi Trip Kaggle είναι το RMSLE ή το Root Mean Squared Log Error. Η κορυφαία υποβολή στο Kaggle έλαβε βαθμολογία RMSLE 0.29 και το βασικό μοντέλο της Kaggle έχει RMSLE 0.89.

Μπορείτε να χρησιμοποιήσετε οποιονδήποτε αλγόριθμο παλινδρόμησης για να επιλύσετε αυτό το έργο Kaggle, αλλά οι ανταγωνιστές αυτής της πρόκλησης με τις υψηλότερες επιδόσεις έχουν χρησιμοποιήσει είτε μοντέλα ενίσχυσης διαβάθμισης είτε τεχνικές βαθιάς εκμάθησης.

Σύνολο δεδομένων: Kaggle NYC ταξίδι ταξίδι διάρκειας δεδομένων

7. Ανίχνευση ανεπιθύμητων μηνυμάτων σε πραγματικό χρόνο

Σε αυτό το έργο, μπορείτε να χρησιμοποιήσετε τεχνικές μηχανικής εκμάθησης για να διακρίνετε μεταξύ μηνυμάτων ανεπιθύμητης (παράνομης) και ζαμπόν (νόμιμης).

Για να το πετύχετε αυτό, μπορείτε να χρησιμοποιήσετε το σύνολο δεδομένων Kaggle SMS Spam Collection. Αυτό το σύνολο δεδομένων περιέχει ένα σύνολο περίπου 5K μηνυμάτων που έχουν επισημανθεί ως ανεπιθύμητα ή ζαμπόν.

Μπορείτε να ακολουθήσετε τα παρακάτω βήματα για να δημιουργήσετε ένα σύστημα εντοπισμού ανεπιθύμητων μηνυμάτων σε πραγματικό χρόνο:

Χρησιμοποιήστε το σύνολο δεδομένων συλλογής ανεπιθύμητων μηνυμάτων SMS της Kaggle για να εκπαιδεύσετε ένα μοντέλο μηχανικής εκμάθησης.
Δημιουργήστε έναν απλό διακομιστή chat-room στην Python.
Αναπτύξτε το μοντέλο μηχανικής εκμάθησης στο διακομιστή του chat-room σας και βεβαιωθείτε ότι όλη η εισερχόμενη κίνηση περνάει από το μοντέλο.
Αφήστε τα μηνύματα να περάσουν μόνο εάν έχουν ταξινομηθεί ως ζαμπόν. Εάν είναι ανεπιθύμητα, επιστρέψτε ένα μήνυμα σφάλματος.

Για να δημιουργήσετε το μοντέλο μηχανικής εκμάθησης, πρέπει πρώτα να επεξεργαστείτε τα μηνύματα κειμένου που υπάρχουν στο σύνολο δεδομένων συλλογής ανεπιθύμητων μηνυμάτων SMS του Kaggle. Στη συνέχεια, μετατρέψτε αυτά τα μηνύματα σε μια σακούλα λέξεων, έτσι ώστε να μπορούν εύκολα να περάσουν στο μοντέλο ταξινόμησής σας για πρόβλεψη.

Σύνολο δεδομένων: Σύνολο δεδομένων συλλογής ανεπιθύμητων μηνυμάτων SMS Kaggle

8. Myers-Briggs Personality Prediction App

Μπορείτε να δημιουργήσετε μια εφαρμογή για να προβλέψετε τον τύπο προσωπικότητας ενός χρήστη με βάση αυτά που λένε.

Ο δείκτης τύπου Myers-Briggs κατηγοριοποιεί τα άτομα σε 16 διαφορετικούς τύπους προσωπικότητας. Είναι ένα από τα πιο δημοφιλή τεστ προσωπικότητας στον κόσμο.

Αν προσπαθήσετε να βρείτε τον τύπο της προσωπικότητάς σας στο Διαδίκτυο, θα βρείτε πολλά διαδικτυακά κουίζ. Αφού απαντήσετε σε περίπου 20-30 ερωτήσεις, θα σας ανατεθεί ένας τύπος προσωπικότητας.

Ωστόσο, σε αυτό το έργο, μπορείτε να χρησιμοποιήσετε τη μηχανική μάθηση για να προβλέψετε τον τύπο της προσωπικότητας οποιουδήποτε μόνο με βάση μια πρόταση.

Εδώ είναι τα βήματα που μπορείτε να ακολουθήσετε για να το πετύχετε:

Δημιουργήστε ένα μοντέλο ταξινόμησης πολλαπλών κατηγοριών και εκπαιδεύστε το στο σύνολο δεδομένων Myers-Briggs στο Kaggle. Αυτό περιλαμβάνει προεπεξεργασία δεδομένων (κατάργηση λέξεων-κλειδιών και περιττών χαρακτήρων) και κάποια μηχανική λειτουργίας. Μπορείτε να χρησιμοποιήσετε ένα ρηχό μοντέλο εκμάθησης όπως η λογιστική παλινδρόμηση ή ένα μοντέλο βαθιάς μάθησης όπως ένα LSTM για το σκοπό αυτό.
Μπορείτε να δημιουργήσετε μια εφαρμογή που επιτρέπει στους χρήστες να εισάγουν οποιαδήποτε πρόταση της επιλογής τους.
Αποθηκεύστε τα βάρη του μοντέλου μηχανικής εκμάθησης και ενσωματώστε το μοντέλο με την εφαρμογή σας. Αφού ο τελικός χρήστης εισαγάγει μια λέξη, εμφανίστε τον τύπο της προσωπικότητάς του στην οθόνη αφού το μοντέλο κάνει μια πρόβλεψη.

Σύνολο δεδομένων: Σύνολο δεδομένων τύπου Kaggle MBTI

9. Σύστημα αναγνώρισης διάθεσης + Σύστημα συστάτη

Έχετε λυπηθεί ποτέ και νιώσατε ότι έπρεπε να παρακολουθήσετε κάτι αστείο για να σας φτιάξει τη διάθεση; Ή έχετε νιώσει ποτέ τόσο απογοητευμένος που έπρεπε να χαλαρώσετε και να παρακολουθήσετε κάτι χαλαρωτικό;

Αυτό το έργο είναι ένας συνδυασμός δύο μικρότερων έργων.

Μπορείτε να δημιουργήσετε μια εφαρμογή που αναγνωρίζει τη διάθεση ενός χρήστη βάσει ζωντανών βίντεο και μια πρόταση ταινίας με βάση την έκφραση του χρήστη.

Για να το δημιουργήσετε, μπορείτε να ακολουθήσετε τα ακόλουθα βήματα:

Δημιουργήστε μια εφαρμογή που μπορεί να λάβει ζωντανή ροή βίντεο.
Χρησιμοποιήστε το API αναγνώρισης προσώπου της Python για τον εντοπισμό προσώπων και συναισθημάτων σε αντικείμενα στη ροή βίντεο.
Αφού ταξινομήσετε αυτά τα συναισθήματα σε διάφορες κατηγορίες, ξεκινήστε να χτίζετε το σύστημα συστάσεων. Αυτό μπορεί να είναι ένα σύνολο κωδικοποιημένων τιμών για κάθε συναίσθημα, πράγμα που σημαίνει ότι δεν χρειάζεται να συμπεριλάβετε μηχανική εκμάθηση για τις συστάσεις.
Μόλις ολοκληρώσετε τη δημιουργία της εφαρμογής, μπορείτε να την αναπτύξετε στο Heroku, Dash ή σε διακομιστή ιστού.

API: Face Recognition API

10. Ανάλυση συναισθημάτων σχολίου YouTube

Σε αυτό το έργο, μπορείτε να δημιουργήσετε έναν πίνακα ελέγχου που αναλύει το συνολικό συναίσθημα των δημοφιλών YouTubers.

Πάνω από 2 δισεκατομμύρια χρήστες παρακολουθούν βίντεο στο YouTube τουλάχιστον μία φορά το μήνα. Οι δημοφιλείς χρήστες του YouTube συγκεντρώνουν εκατοντάδες δισεκατομμύρια προβολές με το περιεχόμενό τους. Ωστόσο, πολλοί από αυτούς τους επηρεαστές δέχθηκαν πυρά λόγω αντιπαραθέσεων στο παρελθόν και η αντίληψη του κοινού αλλάζει συνεχώς.

Μπορείτε να δημιουργήσετε ένα μοντέλο ανάλυσης συναισθημάτων και να δημιουργήσετε έναν πίνακα ελέγχου για να απεικονίσετε συναισθήματα γύρω από διασημότητες με την πάροδο του χρόνου.

Για να το δημιουργήσετε, μπορείτε να ακολουθήσετε τα ακόλουθα βήματα:

Ξύστε τα σχόλια των βίντεο από τους YouTubers που θέλετε να αναλύσετε.
Χρησιμοποιήστε ένα προ-εκπαιδευμένο μοντέλο ανάλυσης συναισθημάτων για να κάνετε προβλέψεις για κάθε σχόλιο.
Οπτικοποιήστε τις προβλέψεις του μοντέλου σε έναν πίνακα εργαλείων. Μπορείτε ακόμη να δημιουργήσετε μια εφαρμογή ταμπλό χρησιμοποιώντας βιβλιοθήκες όπως Dash (Python) ή Shiny (R).
Μπορείτε να κάνετε τον πίνακα ελέγχου διαδραστικό επιτρέποντας στους χρήστες να φιλτράρουν το συναίσθημα κατά χρονικό πλαίσιο, όνομα χρήστη YouTube και είδος βίντεο.

API: YouTube Comment Scraper

Χαρακτηριστικά

Η βιομηχανία μηχανικής μάθησης είναι μεγάλη και γεμάτη ευκαιρίες. Εάν θέλετε να εισέλθετε στη βιομηχανία χωρίς επίσημο εκπαιδευτικό υπόβαθρο, ο καλύτερος τρόπος για να δείξετε ότι έχετε τις απαραίτητες δεξιότητες για να κάνετε τη δουλειά είναι μέσω έργων.

Η πτυχή της μηχανικής εκμάθησης των περισσότερων έργων που αναφέρονται παραπάνω είναι αρκετά απλή. Λόγω του εκδημοκρατισμού της μηχανικής μάθησης, η διαδικασία δημιουργίας μοντέλων μπορεί να επιτευχθεί εύκολα μέσω προεκπαιδευμένων μοντέλων και API.

Έργα τεχνητής νοημοσύνης ανοιχτού κώδικα όπως το Keras και το FastAI συνέβαλαν επίσης στην επιτάχυνση της διαδικασίας κατασκευής μοντέλων. Το δύσκολο μέρος αυτής της μηχανικής εκμάθησης και έργα επιστήμης δεδομένων είναι η συλλογή, η προεπεξεργασία και η ανάπτυξη δεδομένων. Εάν βρείτε μια δουλειά στη μηχανική μάθηση, οι περισσότεροι αλγόριθμοι θα είναι αρκετά απλοί στην κατασκευή. Θα χρειαστεί μόνο μία ή δύο ημέρες για να δημιουργήσετε ένα μοντέλο πρόβλεψης πωλήσεων. Θα ξοδέψετε τον περισσότερο χρόνο σας βρίσκοντας κατάλληλες πηγές δεδομένων και βάζοντας τα μοντέλα σας σε παραγωγή για να αποκτήσετε επιχειρηματική αξία.

Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.

Συγγενεύων: