Εικόνα από συγγραφέα
Οι Επιστήμονες Δεδομένων, οι Μηχανικοί Δεδομένων και οι Μηχανικοί Μηχανικής Μάθησης αφιερώνουν πολύ χρόνο κοιτάζοντας δεδομένα και βρίσκοντας στατιστικά συμπεράσματα ή συμπεράσματα από αυτά. Αλλά ένα μεγάλο πράγμα που είναι μια απαιτούμενη ικανότητα για αυτούς τους επαγγελματίες και όποιος κοιτάζει δεδομένα είναι να έχει καλή διαίσθηση για τον πραγματικό κόσμο.
Τα δεδομένα έχουν πολλές μεταβλητές που μπορείτε να λάβετε υπόψη, ωστόσο, είναι καλό να σημειώσετε ότι παράγουν μια αναπαράσταση πεπερασμένων διαστάσεων. Εδώ θα πρέπει να δείτε πέρα από τα δεδομένα και να καταλάβετε ποια είναι η κρυφή πραγματικότητα και πώς μπορεί να εφαρμοστεί στο σύνολο δεδομένων.
Το παράδοξο του Simpson μας αποδεικνύει τη σημασία του να είμαστε δύσπιστοι κατά την ερμηνεία των δεδομένων σας και να διασφαλίζουμε ότι εφαρμόζετε τον πραγματικό κόσμο – χωρίς να περιορίζετε τον εαυτό σας από το να το δει από την άποψη των δεδομένων.
Το 1972 ο Colin R. Blyth εισήγαγε το όνομα Simpson's παράδοξο, επίσης γνωστό ως Simpson's reversal, το φαινόμενο Yule-Simpson, παράδοξο συγχώνευσης ή παράδοξο αντιστροφής.
Το παράδοξο του Simpson είναι όταν υπάρχει μια τάση ή μια έξοδος όταν τα δεδομένα τοποθετούνται σε ομάδες που είτε αντιστρέφονται είτε εξαφανίζονται όταν τα δεδομένα συνδυάζονται. Είναι ένα στατιστικό παράδοξο όπου μπορεί να βγάλει δύο αντίθετα συμπεράσματα από τα ίδια δεδομένα, ανάλογα με τον τρόπο ομαδοποίησης των δεδομένων.
UC Berkeley και το παράδοξο του Simpson
Ένα δημοφιλές παράδειγμα του παραδόξου του Simpson είναι η μελέτη του UC Berkeley σχετικά με την προκατάληψη του φύλου στις εισαγωγές μεταπτυχιακών σχολών. Το 1973, στην αρχή του ακαδημαϊκού έτους, το μεταπτυχιακό σχολείο του UC Berkeley δέχτηκε περίπου 44% αιτήσεις ανδρών και 35% γυναίκες αιτούντες. Το σχολείο φοβόταν ότι αντιμετώπιζαν μια αγωγή, επομένως προετοιμάστηκε για αυτό ζητώντας από τον Peter Bickel, έναν στατιστικολόγο να ρίξει μια ματιά στα δεδομένα.
Αυτό που ανακάλυψε ήταν ότι υπήρχε μια στατιστικά σημαντική προκατάληψη του φύλου που ήταν υπέρ των γυναικών στα 4/6 τμήματα και ότι δεν υπήρχε σημαντική προκατάληψη φύλου στα υπόλοιπα 2. Τα ευρήματα της ομάδας έδειξαν ότι οι γυναίκες έκαναν αίτηση για τμήματα που είχαν συνολική μικρότερο ποσοστό αιτούντων.
Στο Simpson's Paradox, πρέπει να λάβετε υπόψη σενάρια και μεταβλητές του πραγματικού κόσμου που μπορούν να κρυφτούν και να μην ερμηνευθούν εύκολα μέσω δεδομένων. Σε αυτό το παράδειγμα, η κρυφή μεταβλητή είναι ότι περισσότερες γυναίκες έκαναν αίτηση για ένα συγκεκριμένο τμήμα. Αυτό επηρεάζει το συνολικό ποσοστό των αποδεκτών αιτούντων, με τρόπο που δείχνει την αντίστροφη τάση που υπήρχε αρχικά στα δεδομένα.
Στη συνέχεια, η ομάδα κατέληξε στο συμπέρασμα ότι η απόδοση της για τα δεδομένα άλλαξε όταν τα έλαβαν υπόψη κατά τη διαίρεση του σχολείου σε τμήματα.
Η παρακάτω εικόνα εξηγεί πώς αντιστρέφονται οι τάσεις όταν ομαδοποιούνται τα δεδομένα:
Εικόνα από Wikipedia
Το παράδοξο του Simpson μπορεί να κάνει την εργασία με δεδομένα πιο περίπλοκη και να κάνει τη διαδικασία λήψης αποφάσεων πολύ πιο δύσκολη.
Εάν αρχίσετε να επαναλαμβάνετε τα δεδομένα σας με διαφορετικό τρόπο, θα βγάλετε διαφορετικά συμπεράσματα. Αυτό φυσικά θα σας κάνει πιο δύσκολο να επιλέξετε ένα συγκεκριμένο ακριβές συμπέρασμα για να βγάλετε περαιτέρω πληροφορίες. Αυτό σημαίνει ότι η ομάδα θα πρέπει να βρει το καλύτερο συμπέρασμα που έχει δίκαιη αναπαράσταση των δεδομένων.
Όταν εργαζόμαστε με έργα που σχετίζονται με δεδομένα, εστιάζουμε συχνά στα δεδομένα και προσπαθούμε να ερμηνεύσουμε την ιστορία που προσπαθεί να μας πει. Αλλά αν εφαρμόσουμε τη γνώση του πραγματικού κόσμου, θα μας έλεγε μια εντελώς διαφορετική ιστορία.
Η κατανόηση της σημασίας αυτού μας ανοίγει περισσότερες ευκαιρίες για να εξετάσουμε βαθύτερα τα δεδομένα και να πραγματοποιήσουμε επαρκή ανάλυση για να βοηθήσουμε στη διαδικασία λήψης αποφάσεων. Το Simpson's Paradox εστιάζει στο πώς η έλλειψη επαρκούς αναλυτικής γνώσης και συνολικής γνώσης του έργου μπορεί να μας παραπλανήσει και να λάβουμε λάθος αποφάσεις.
Για παράδειγμα, βλέπουμε μια αύξηση στη χρήση αναλύσεων δεδομένων σε πραγματικό χρόνο. Όλο και περισσότερες ομάδες το εφαρμόζουν για να βοηθήσουν στην ανίχνευση μοτίβων και χρησιμοποιούν αυτή τη γνώση για τη λήψη αποφάσεων σε σύντομες περιόδους. Η εργασία με ανάλυση δεδομένων σε πραγματικό χρόνο είναι αποτελεσματική όταν εστιάζεις στο πώς να βελτιώσεις μια εταιρεία με βάση τα τρέχοντα δεδομένα σε πραγματικό χρόνο. Ωστόσο, αυτές οι σύντομες περίοδοι μπορεί να προκαλέσουν παραπλανητικές πληροφορίες και να κρύψουν τη συνολική πραγματική τάση που δείχνουν τα δεδομένα.
Η λανθασμένη ανάλυση δεδομένων μπορεί να καθυστερήσει μια εταιρεία. Και όλοι γνωρίζουμε ότι οι λανθασμένες αποφάσεις κρατούν πάντα μια εταιρεία πίσω. Επομένως, λαμβάνοντας υπόψη το παράδοξο του Simpson ωφελεί την εταιρεία να κατανοήσει τους περιορισμούς των δεδομένων, τι οδηγεί τα δεδομένα και τις διαφορετικές μεταβλητές και διατηρεί την προκατάληψη σε χαμηλά επίπεδα.
Το Simpson's Paradox υπενθυμίζει στους επαγγελματίες που εργάζονται με δεδομένα τη σημασία της κατανόησης των δεδομένων και το επίπεδο διαίσθησής τους. Αυτή είναι η στιγμή που θα παρουσιαστούν πολλές soft skills των επαγγελματιών δεδομένων, όπως η κριτική σκέψη.
Ο στόχος είναι να αναζητηθούν κρυφές προκαταλήψεις και μεταβλητές που υπάρχουν στα δεδομένα, οι οποίες μπορεί να μην είναι εύκολα ανιχνεύσιμες με την πρώτη ματιά ή όταν έχει γίνει υψηλή ανάλυση.
Ένα πράγμα που πρέπει να ληφθεί υπόψη σχετικά με το παράδοξο του Simpson είναι ότι η υπερβολική συγκέντρωση δεδομένων μπορεί σύντομα να γίνει άχρηστη και να αρχίσει να εισάγει μεροληψία. Αλλά από την άλλη πλευρά, εάν δεν συγκεντρώνουμε τα δεδομένα, τα δεδομένα μπορεί να είναι περιορισμένα στις πληροφορίες και στα υποκείμενα μοτίβα που μπορεί να μας πει.
Για να αποφύγετε το παράδοξο του Simpson, θα χρειαστεί να ελέγξετε διεξοδικά τα δεδομένα σας και να βεβαιωθείτε ότι έχετε καλή κατανόηση του επιχειρηματικού προβλήματος.
Nisha Arya είναι Επιστήμονας Δεδομένων, Ανεξάρτητος Τεχνικός Συγγραφέας και Διευθυντής Κοινότητας στο KDnuggets. Ενδιαφέρεται ιδιαίτερα να παρέχει συμβουλές σταδιοδρομίας ή σεμινάρια της Επιστήμης Δεδομένων και γνώσεις βασισμένες στη θεωρία γύρω από την Επιστήμη των Δεδομένων. Επιθυμεί επίσης να διερευνήσει τους διαφορετικούς τρόπους με τους οποίους η Τεχνητή Νοημοσύνη μπορεί/μπορεί να ωφελήσει τη μακροζωία της ανθρώπινης ζωής. Μια δεινή μαθήτρια, που επιδιώκει να διευρύνει τις τεχνολογικές της γνώσεις και τις δεξιότητες γραφής, βοηθώντας παράλληλα να καθοδηγήσει άλλους.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :είναι
- $UP
- 35%
- a
- Σχετικά
- ακαδημαϊκής
- αποδεκτές
- Λογαριασμός
- ακριβής
- παράδεκτος
- συμβουλές
- κατά
- συσσωμάτωση
- Όλα
- πάντοτε
- ανάλυση
- Αναλυτικός
- analytics
- και
- κάποιος
- εφαρμογές
- εφαρμοσμένος
- Εφαρμογή
- εφαρμόζοντας
- ΕΙΝΑΙ
- γύρω
- τεχνητός
- τεχνητή νοημοσύνη
- AS
- At
- αποφύγετε
- πίσω
- βασίζονται
- BE
- γίνονται
- είναι
- παρακάτω
- όφελος
- οφέλη
- Berkeley
- ΚΑΛΎΤΕΡΟΣ
- Πέρα
- προκατάληψη
- Μεγάλος
- ευρύνω
- επιχείρηση
- by
- CAN
- Σταδιοδρομία
- Αιτία
- Επιλέξτε
- σε συνδυασμό
- Ελάτε
- κοινότητα
- εταίρα
- εντελώς
- συγκρότημα
- Κατέληξε στο συμπέρασμα
- συμπέρασμα
- εξέταση
- κρίσιμης
- Ρεύμα
- ημερομηνία
- ανάλυση δεδομένων
- Δεδομένα Analytics
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- Λήψη Αποφάσεων
- αποφάσεις
- βαθύτερη
- Τμήμα
- τμήματα
- Σε συνάρτηση
- διαφορετικές
- εξαφανίζομαι
- Μην
- Αναλήψεις
- εύκολα
- αποτέλεσμα
- Αποτελεσματικός
- είτε
- Μηχανικοί
- εξασφαλίζω
- εξασφαλίζοντας
- παράδειγμα
- Εξηγεί
- διερευνήσει
- έκθεση
- ευνοούν
- θηλυκός
- Εικόνα
- Εύρεση
- εύρεση
- Όνομα
- Πρώτη ματιά
- επικεντρώθηκε
- εστιάζει
- εστιάζοντας
- Για
- Βρέθηκαν
- ανεξάρτητος
- από
- περαιτέρω
- Φύλο
- καλός
- αποφοιτήσουν
- Ομάδα
- καθοδηγήσει
- χέρι
- Έχω
- που έχει
- βοήθεια
- βοήθεια
- βοηθά
- κρυμμένο
- Κρύβω
- Ψηλά
- κρατήστε
- Πως
- Πώς να
- Ωστόσο
- HTTPS
- ανθρώπινος
- εικόνα
- εκτελεστικών
- επιπτώσεις
- σπουδαιότητα
- βελτίωση
- in
- πληροφορίες
- αρχικά
- διορατικότητα
- ιδέες
- Νοημοσύνη
- ενδιαφερόμενος
- εισαγάγει
- εισήγαγε
- διαίσθηση
- IT
- ΤΟΥ
- jpg
- KDnuggets
- Keen
- Ξέρω
- γνώση
- γνωστός
- Έλλειψη
- αγωγή
- μαθητευόμενος
- μάθηση
- μηχανικοί που μαθαίνουν
- Επίπεδο
- ζωή
- περιορισμούς
- Περιωρισμένος
- μακροβιότητα
- ματιά
- κοιτάζοντας
- Παρτίδα
- Χαμηλός
- μηχανή
- μάθηση μηχανής
- κάνω
- διευθυντής
- μέσα
- περισσότερο
- όνομα
- φυσικά
- Ανάγκη
- of
- on
- ONE
- ανοίγει
- Ευκαιρίες
- απέναντι
- ΑΛΛΑ
- Άλλα
- παραγωγή
- φόρμες
- Παράδοξο
- ιδιαίτερα
- πρότυπα
- ποσοστό
- εκτελέσει
- έμμηνα
- Πέτρος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δημοφιλής
- έτοιμος
- παρόν
- Πρόβλημα
- διαδικασια μας
- επαγγελματίες
- σχέδιο
- έργα
- αποδεικνύει
- χορήγηση
- βάζω
- πραγματικός
- πραγματικό κόσμο
- σε πραγματικό χρόνο
- δεδομένα σε πραγματικό χρόνο
- Πραγματικότητα
- υπόλοιπα
- αντιπροσώπευση
- απαιτείται
- περιορίζοντας
- Αντιστροφή
- αντιστρέψει
- ανασκόπηση
- Αύξηση
- s
- ίδιο
- σενάρια
- Σχολείο
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- βλέποντας
- αναζήτηση
- διάφοροι
- Κοντά
- Δείχνει
- σημαντικός
- δύσπιστος
- επιδεξιότητα
- δεξιότητες
- μικρότερος
- Μαλακός
- Σύντομα
- συγκεκριμένες
- δαπανήσει
- Εκκίνηση
- στατιστικός
- Ιστορία
- Μελέτη
- τέτοιος
- επαρκής
- Πάρτε
- λήψη
- ομάδες
- tech
- Τεχνικός
- ότι
- Η
- οι πληροφορίες
- τους
- τους
- επομένως
- Αυτοί
- πράγμα
- Σκέψη
- διεξοδικά
- Μέσω
- ώρα
- προς την
- πολύ
- τάση
- Τάσεις
- αληθής
- tutorials
- υποκείμενες
- καταλαβαίνω
- κατανόηση
- us
- χρήση
- μεταβλητές
- Τρόπος..
- τρόπους
- Τι
- Ποιό
- Ενώ
- Wikipedia
- θα
- επιθυμίες
- με
- χωρίς
- Γυναίκες
- εργαζόμενος
- κόσμος
- θα
- συγγραφέας
- γραφή
- Λανθασμένος
- έτος
- Σας
- τον εαυτό σας
- zephyrnet