Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου
Εικόνα από συγγραφέα

Οι μετρήσεις αξιολόγησης είναι σαν τα εργαλεία μέτρησης που χρησιμοποιούμε για να κατανοήσουμε πόσο καλά κάνει τη δουλειά του ένα μοντέλο μηχανικής μάθησης. Μας βοηθούν να συγκρίνουμε διαφορετικά μοντέλα και να καταλάβουμε ποιο λειτουργεί καλύτερα για μια συγκεκριμένη εργασία. Στον κόσμο των προβλημάτων ταξινόμησης, υπάρχουν ορισμένες κοινώς χρησιμοποιούμενες μετρήσεις για να δούμε πόσο καλό είναι ένα μοντέλο και είναι σημαντικό να γνωρίζουμε ποια μέτρηση είναι κατάλληλη για το συγκεκριμένο πρόβλημά μας. Όταν κατανοούμε τις λεπτομέρειες κάθε μέτρησης, γίνεται ευκολότερο να αποφασίσουμε ποια ταιριάζει με τις ανάγκες της εργασίας μας.

Σε αυτό το άρθρο, θα διερευνήσουμε τις βασικές μετρήσεις αξιολόγησης που χρησιμοποιούνται στις εργασίες ταξινόμησης και θα εξετάσουμε καταστάσεις όπου μια μέτρηση μπορεί να είναι πιο σχετική από άλλες.

Πριν βουτήξουμε βαθιά στις μετρήσεις αξιολόγησης, είναι σημαντικό να κατανοήσουμε τη βασική ορολογία που σχετίζεται με ένα πρόβλημα ταξινόμησης.

Ετικέτες βασικής αλήθειας: Αυτά αναφέρονται στις πραγματικές ετικέτες που αντιστοιχούν σε κάθε παράδειγμα στο σύνολο δεδομένων μας. Αυτές είναι η βάση όλων των αξιολογήσεων και οι προβλέψεις συγκρίνονται με αυτές τις τιμές.

Προβλεπόμενες ετικέτες: Αυτές είναι οι ετικέτες κλάσεων που προβλέπονται χρησιμοποιώντας το μοντέλο μηχανικής εκμάθησης για κάθε παράδειγμα στο σύνολο δεδομένων μας. Συγκρίνουμε τέτοιες προβλέψεις με τις ετικέτες βασικής αλήθειας χρησιμοποιώντας διάφορες μετρήσεις αξιολόγησης για να υπολογίσουμε εάν το μοντέλο θα μπορούσε να μάθει τις αναπαραστάσεις στα δεδομένα μας.

Τώρα, ας εξετάσουμε μόνο ένα πρόβλημα δυαδικής ταξινόμησης για ευκολότερη κατανόηση. Με μόνο δύο διαφορετικές κατηγορίες στο σύνολο δεδομένων μας, η σύγκριση ετικετών βασικής αλήθειας με προβλεπόμενες ετικέτες μπορεί να οδηγήσει σε ένα από τα ακόλουθα τέσσερα αποτελέσματα, όπως φαίνεται στο διάγραμμα.

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου
Εικόνα από συγγραφέα: Χρησιμοποιώντας το 1 για να δηλώσετε μια θετική ετικέτα και το 0 για μια αρνητική ετικέτα, οι προβλέψεις μπορούν να εμπίπτουν σε μία από τις τέσσερις κατηγορίες.

Αληθινά θετικά: Το μοντέλο προβλέπει μια θετική ετικέτα κλάσης όταν η βασική αλήθεια είναι επίσης θετική. Αυτή είναι η απαιτούμενη συμπεριφορά καθώς το μοντέλο μπορεί να προβλέψει με επιτυχία μια θετική ετικέτα.

Εσφαλμένα θετικά: Το μοντέλο προβλέπει μια θετική ετικέτα κλάσης όταν η ετικέτα βασικής αλήθειας είναι αρνητική. Το μοντέλο προσδιορίζει ψευδώς ένα δείγμα δεδομένων ως θετικό.

Ψευδοαρνητικά: Το μοντέλο προβλέπει μια αρνητική ετικέτα κλάσης για ένα θετικό παράδειγμα. Το μοντέλο προσδιορίζει ψευδώς ένα δείγμα δεδομένων ως αρνητικό.

Αληθινά αρνητικά: Η απαιτούμενη συμπεριφορά επίσης. Το μοντέλο προσδιορίζει σωστά ένα αρνητικό δείγμα, προβλέποντας το 0 για ένα δείγμα δεδομένων που έχει ετικέτα αληθείας γείωσης 0.

Τώρα, μπορούμε να βασιστούμε σε αυτούς τους όρους για να κατανοήσουμε πώς λειτουργούν οι κοινές μετρήσεις αξιολόγησης.

Αυτός είναι ο πιο απλός αλλά διαισθητικός τρόπος αξιολόγησης της απόδοσης ενός μοντέλου για προβλήματα ταξινόμησης. Μετρά την αναλογία των συνολικών ετικετών που το μοντέλο προέβλεψε σωστά.

Επομένως, η ακρίβεια μπορεί να υπολογιστεί ως εξής:

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου

Πότε να χρησιμοποιήσετε

Αρχική Αξιολόγηση Μοντέλου

Δεδομένης της απλότητάς της, η ακρίβεια είναι μια ευρέως χρησιμοποιούμενη μέτρηση. Παρέχει ένα καλό σημείο εκκίνησης για την επαλήθευση εάν το μοντέλο μπορεί να μάθει καλά πριν χρησιμοποιήσουμε μετρήσεις ειδικά για τον τομέα του προβλήματός μας.

Ισορροπημένα σύνολα δεδομένων

Η ακρίβεια είναι κατάλληλη μόνο για ισορροπημένα σύνολα δεδομένων όπου όλες οι ετικέτες κλάσεων έχουν παρόμοιες αναλογίες. Εάν δεν συμβαίνει αυτό, και μια ετικέτα κλάσης υπερτερεί σημαντικά των άλλων, το μοντέλο μπορεί να επιτύχει υψηλή ακρίβεια προβλέποντας πάντα την πλειοψηφική κατηγορία. Η μέτρηση ακρίβειας τιμωρεί εξίσου τις λάθος προβλέψεις για κάθε τάξη, καθιστώντας την ακατάλληλη για μη ισορροπημένα σύνολα δεδομένων.

Όταν το κόστος λανθασμένης ταξινόμησης είναι ίσο

Η ακρίβεια είναι κατάλληλη για περιπτώσεις όπου τα ψευδώς θετικά ή τα ψευδώς αρνητικά είναι εξίσου κακά. Για παράδειγμα, για ένα πρόβλημα ανάλυσης συναισθήματος, είναι εξίσου κακό αν ταξινομήσουμε ένα αρνητικό κείμενο ως θετικό ή ένα θετικό κείμενο ως αρνητικό. Για τέτοια σενάρια, η ακρίβεια είναι μια καλή μέτρηση.

Η ακρίβεια επικεντρώνεται στη διασφάλιση ότι έχουμε όλες τις θετικές προβλέψεις σωστές. Μετρά ποιο κλάσμα των θετικών προβλέψεων ήταν πραγματικά θετικές.

Μαθηματικά, αναπαρίσταται ως

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου

Πότε να χρησιμοποιήσετε

Υψηλό κόστος ψευδών θετικών

Σκεφτείτε ένα σενάριο όπου εκπαιδεύουμε ένα μοντέλο για την ανίχνευση του καρκίνου. Θα είναι πιο σημαντικό για εμάς να μην ταξινομήσουμε εσφαλμένα έναν ασθενή που δεν έχει καρκίνο, δηλαδή ψευδώς θετικό. Θέλουμε να είμαστε σίγουροι όταν κάνουμε μια θετική πρόβλεψη, καθώς η εσφαλμένη ταξινόμηση ενός ατόμου ως θετικού καρκίνου μπορεί να οδηγήσει σε περιττό άγχος και έξοδα. Επομένως, εκτιμούμε ιδιαίτερα ότι προβλέπουμε μια θετική ετικέτα μόνο όταν η πραγματική ετικέτα είναι θετική.

Ποιότητα έναντι της ποσότητας

Εξετάστε ένα άλλο σενάριο όπου χτίζουμε μια μηχανή αναζήτησης που αντιστοιχίζει ερωτήματα χρήστη σε ένα σύνολο δεδομένων. Σε τέτοιες περιπτώσεις, εκτιμούμε ότι τα αποτελέσματα αναζήτησης ταιριάζουν στενά με το ερώτημα χρήστη. Δεν θέλουμε να επιστρέψουμε κανένα έγγραφο άσχετο με τον χρήστη, δηλαδή ψευδώς θετικό. Επομένως, προβλέπουμε θετικά μόνο για έγγραφα που ταιριάζουν στενά με το ερώτημα χρήστη. Εκτιμούμε την ποιότητα σε σχέση με την ποσότητα, καθώς προτιμούμε έναν μικρό αριθμό στενά συνδεδεμένων αποτελεσμάτων αντί για έναν μεγάλο αριθμό αποτελεσμάτων που μπορεί να είναι ή να μην είναι σχετικά με τον χρήστη. Για τέτοια σενάρια, θέλουμε υψηλή ακρίβεια.

Το Recall, γνωστό και ως Sensitivity, μετρά πόσο καλά ένα μοντέλο μπορεί να θυμάται τις θετικές ετικέτες στο σύνολο δεδομένων. Μετρά ποιο κλάσμα των θετικών ετικετών στο σύνολο δεδομένων μας το μοντέλο προβλέπει ως θετικό.

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου

Μια υψηλότερη ανάκληση σημαίνει ότι το μοντέλο είναι καλύτερο στο να θυμάται ποια δείγματα δεδομένων έχουν θετικές ετικέτες.

Πότε να χρησιμοποιήσετε

Υψηλό κόστος ψευδών αρνητικών

Χρησιμοποιούμε την Ανάκληση όταν η απώλεια μιας θετικής ετικέτας μπορεί να έχει σοβαρές συνέπειες. Εξετάστε ένα σενάριο όπου χρησιμοποιούμε ένα μοντέλο μηχανικής εκμάθησης για τον εντοπισμό απάτης πιστωτικών καρτών. Σε τέτοιες περιπτώσεις, είναι απαραίτητος ο έγκαιρος εντοπισμός των προβλημάτων. Δεν θέλουμε να χάσουμε μια δόλια συναλλαγή καθώς μπορεί να αυξήσει τις απώλειες. Ως εκ τούτου, εκτιμούμε την Ανάκληση έναντι της Ακρίβειας, όπου η εσφαλμένη ταξινόμηση μιας συναλλαγής ως δόλιας μπορεί να είναι εύκολο να επαληθευτεί και μπορούμε να αντέξουμε οικονομικά μερικά ψευδώς θετικά έναντι ψευδώς αρνητικών.

Είναι το αρμονικό μέσο της Ακρίβειας και της Ανάκλησης. Τιμωρεί τα μοντέλα που έχουν σημαντική ανισορροπία μεταξύ των δύο μετρήσεων.

Κατανόηση των μετρήσεων ταξινόμησης: Ο οδηγός σας για την αξιολόγηση της ακρίβειας του μοντέλου

Χρησιμοποιείται ευρέως σε σενάρια όπου τόσο η ακρίβεια όσο και η ανάκληση είναι σημαντικές και επιτρέπει την επίτευξη ισορροπίας μεταξύ των δύο.

Πότε να χρησιμοποιήσετε

Μη ισορροπημένα σύνολα δεδομένων

Σε αντίθεση με την ακρίβεια, το F1-Score είναι κατάλληλο για την αξιολόγηση μη ισορροπημένων συνόλων δεδομένων, καθώς αξιολογούμε την απόδοση με βάση την ικανότητα του μοντέλου να ανακαλεί την κατηγορία μειοψηφίας διατηρώντας παράλληλα υψηλή ακρίβεια συνολικά.

Ανταλλαγή ακριβείας-ανάκλησης

Και οι δύο μετρήσεις είναι αντίθετες μεταξύ τους. Εμπειρικά, η βελτίωση του ενός μπορεί συχνά να οδηγήσει σε υποβάθμιση του άλλου. Το F1-Score βοηθά στην εξισορρόπηση και των δύο μετρήσεων και είναι χρήσιμο σε σενάρια όπου τόσο η Ανάκληση όσο και η Ακρίβεια είναι εξίσου κρίσιμα. Λαμβάνοντας υπόψη και τις δύο μετρήσεις για τον υπολογισμό, το F1-Score είναι μια μέτρηση που χρησιμοποιείται ευρέως για την αξιολόγηση μοντέλων ταξινόμησης.

Μάθαμε ότι διαφορετικές μετρήσεις αξιολόγησης έχουν συγκεκριμένες θέσεις εργασίας. Η γνώση αυτών των μετρήσεων μας βοηθά να επιλέξουμε την κατάλληλη για την εργασία μας. Στην πραγματική ζωή, δεν είναι μόνο να έχεις καλά μοντέλα. είναι να έχουμε μοντέλα που ταιριάζουν απόλυτα στις επιχειρηματικές μας ανάγκες. Έτσι, η επιλογή της σωστής μέτρησης είναι σαν να επιλέγουμε το σωστό εργαλείο για να βεβαιωθούμε ότι το μοντέλο μας λειτουργεί καλά εκεί που έχει μεγαλύτερη σημασία.

Εξακολουθείτε να έχετε σύγχυση σχετικά με το ποια μέτρηση να χρησιμοποιήσετε; Το να ξεκινήσετε με ακρίβεια είναι ένα καλό αρχικό βήμα. Παρέχει μια βασική κατανόηση της απόδοσης του μοντέλου σας. Από εκεί, μπορείτε να προσαρμόσετε την αξιολόγησή σας με βάση τις συγκεκριμένες απαιτήσεις σας. Εναλλακτικά, σκεφτείτε το F1-Score, το οποίο χρησιμεύει ως ευέλικτο μέτρο, επιτυγχάνοντας μια ισορροπία μεταξύ ακρίβειας και ανάκλησης, καθιστώντας το κατάλληλο για διάφορα σενάρια. Μπορεί να είναι το βασικό σας εργαλείο για ολοκληρωμένη αξιολόγηση ταξινόμησης.

Μοχάμεντ Άρχαμ είναι Μηχανικός Deep Learning που εργάζεται στην όραση υπολογιστών και στην επεξεργασία φυσικής γλώσσας. Έχει εργαστεί στην ανάπτυξη και τη βελτιστοποίηση πολλών παραγωγικών εφαρμογών τεχνητής νοημοσύνης που έφτασαν στα παγκόσμια κορυφαία charts στο Vyro.AI. Ενδιαφέρεται για τη δημιουργία και τη βελτιστοποίηση μοντέλων μηχανικής μάθησης για ευφυή συστήματα και πιστεύει στη συνεχή βελτίωση.

Μοχάμεντ Άρχαμ είναι Μηχανικός Deep Learning που εργάζεται στην όραση υπολογιστών και στην επεξεργασία φυσικής γλώσσας. Έχει εργαστεί στην ανάπτυξη και τη βελτιστοποίηση πολλών παραγωγικών εφαρμογών τεχνητής νοημοσύνης που έφτασαν στα παγκόσμια κορυφαία charts στο Vyro.AI. Ενδιαφέρεται για τη δημιουργία και τη βελτιστοποίηση μοντέλων μηχανικής μάθησης για ευφυή συστήματα και πιστεύει στη συνεχή βελτίωση.