Κατανόηση των Διαστημάτων Εμπιστοσύνης με την Python

Κόμβος πηγής: 1883080

Αυτό το άρθρο δημοσιεύθηκε ως μέρος του Επιστήμη δεδομένων Blogathon.

Πίνακας περιεχομένων

  1. Εισαγωγή
  2. Διαστήματα εμπιστοσύνης με Z-statistic
  3. Ερμηνεία Διαστημάτων Εμπιστοσύνης
  4. Υποθέσεις για CI χρησιμοποιώντας z-statistic
  5. Διαστήματα εμπιστοσύνης με t-statistic
  6. Υποθέσεις για CI χρησιμοποιώντας t-statistic
  7. Δημιουργία διαστήματος t με ζευγαρωμένα δεδομένα
  8. z-value vs t-value: πότε να χρησιμοποιήσετε τι;
  9. Διαστήματα εμπιστοσύνης με python
  10. Σημείωση τέλους

Εισαγωγή

Κάθε φορά που λύνουμε ένα στατιστικό πρόβλημα, μας απασχολεί η εκτίμηση των παραμέτρων πληθυσμού, αλλά τις περισσότερες φορές είναι σχεδόν αδύνατο να υπολογιστούν οι παράμετροι πληθυσμού. Αντίθετα, αυτό που κάνουμε είναι να παίρνουμε τυχαία δείγματα από τον πληθυσμό και να υπολογίζουμε δειγματοληπτικά στατιστικά στοιχεία αναμένοντας να προσεγγίσουμε τις παραμέτρους του πληθυσμού. Πώς ξέρουμε όμως αν τα δείγματα είναι αληθινοί εκπρόσωποι του πληθυσμού ή πόσο αυτά τα στατιστικά του δείγματος αποκλίνουν από τις παραμέτρους του πληθυσμού; Εδώ εμφανίζονται τα διαστήματα εμπιστοσύνης. Λοιπόν, ποια είναι αυτά τα διαστήματα; Το διάστημα εμπιστοσύνης είναι ένα εύρος τιμών που κυμαίνονται πάνω και κάτω από τα στατιστικά του δείγματος ή μπορούμε επίσης να το ορίσουμε ως την πιθανότητα ένα εύρος τιμών γύρω από το στατιστικό δείγμα να περιέχει την πραγματική παράμετρο πληθυσμού.

Διαστήματα εμπιστοσύνης με Z-statistic

Πριν εμβαθύνουμε στο θέμα, ας εξοικειωθούμε με ορισμένες στατιστικές ορολογίες.

πληθυσμός: Είναι το σύνολο όλων των ομοίων ατόμων. Για παράδειγμα ο πληθυσμός μιας πόλης, οι φοιτητές ενός κολεγίου κ.λπ.

δείγμα: Είναι ένα μικρό σύνολο παρόμοιων ατόμων που προέρχονται από τον πληθυσμό. Ομοίως, ένα τυχαίο δείγμα είναι ένα δείγμα που λαμβάνεται τυχαία από τον πληθυσμό.

παράμετροι: Μέσος όρος(mu), τυπικές αποκλίσεις(σίγμα), αναλογία(p) που προέρχονται από τον πληθυσμό.

στατιστικός: μέσος όρος (x bar), απόκλιση std (S), αναλογίες (p^) που σχετίζονται με δείγματα.

Z-σκορ: είναι η απόσταση οποιουδήποτε σημείου πρωτογενών δεδομένων σε μια κανονική κατανομή από τον μέσο όρο που κανονικοποιείται με την απόκλιση std. Δίνεται από: x-mu/sigma

Αυτή τη στιγμή είμαστε έτοιμοι να βουτήξουμε βαθιά στην έννοια των διαστημάτων εμπιστοσύνης. Για κάποιο λόγο, πιστεύω ότι είναι πολύ καλύτερο να κατανοούμε τις έννοιες μέσω σχετικών παραδειγμάτων παρά με ακατέργαστους μαθηματικούς ορισμούς. Ας ξεκινήσουμε λοιπόν.

Ας υποθέσουμε ότι ζείτε σε μια πόλη 100,000 κατοίκων και οι εκλογές είναι στη γωνία. Ως δημοσκόπος, πρέπει να προβλέψετε ποιος θα κερδίσει τις εκλογές είτε το μπλε κόμμα είτε το κίτρινο. Έτσι, βλέπετε ότι είναι σχεδόν αδύνατο να συλλέξετε πληροφορίες από ολόκληρο τον πληθυσμό, επομένως επιλέγετε τυχαία 100 άτομα. Στο τέλος της έρευνας, διαπιστώσατε ότι το 62% των ανθρώπων πρόκειται να ψηφίσουν κίτρινο. Τώρα το ερώτημα είναι πρέπει να συμπεράνουμε ότι το κίτρινο θα κερδίσει με πιθανότητα νίκης 62% ή το 62% του συνόλου του πληθυσμού θα ψηφίσει κίτρινο; Λοιπόν, η απάντηση είναι ΟΧΙ. Δεν γνωρίζουμε με βεβαιότητα πόσο απέχει η εκτίμησή μας από την αληθινή παράμετρο, αν πάρουμε άλλο δείγμα το αποτέλεσμα μπορεί να αποδειχθεί 58% ή 65%. Έτσι, αυτό που θα κάνουμε αντ 'αυτού είναι να βρούμε μια σειρά τιμών γύρω από το στατιστικό δείγμα μας που πιθανότατα θα συλλάβει την πραγματική αναλογία πληθυσμού. Εδώ, η αναλογία αναφέρεται στο ποσοστό των

Διαστήματα εμπιστοσύνης με Python

                                                                   η εικόνα ανήκει στον συγγραφέα

Τώρα, αν πάρουμε εκατό τέτοια δείγματα και σχεδιάσουμε την αναλογία δείγματος κάθε δείγματος, θα έχουμε μια κανονική κατανομή των αναλογιών δειγματοληψίας και ο μέσος όρος της κατανομής θα είναι η πιο κατά προσέγγιση τιμή της αναλογίας πληθυσμού. Και η εκτίμησή μας θα μπορούσε να βρίσκεται οπουδήποτε στην καμπύλη κατανομής. Σύμφωνα με τον κανόνα 3-σίγμα, γνωρίζουμε ότι περίπου το 95% των τυχαίων μεταβλητών βρίσκονται εντός 2 αποκλίσεων από τον μέσο όρο της κατανομής. Έτσι, μπορούμε να συμπεράνουμε ότι η πιθανότητα ότι p^ είναι εντός 2 αποκλίσεων του std του p είναι 95%. Ή μπορούμε επίσης να δηλώσουμε ότι η πιθανότητα το p να βρίσκεται εντός 2 αποκλίσεων std κάτω και πάνω από το p^ είναι επίσης 95%. Αυτές οι δύο δηλώσεις είναι ουσιαστικά ισοδύναμες. Αυτά τα δύο σημεία κάτω και πάνω από το p^ είναι τα διαστήματα εμπιστοσύνης μας.

Διαστήματα εμπιστοσύνης με Python

                                                           η εικόνα ανήκει στον συγγραφέα

Εάν μπορούμε με κάποιο τρόπο να βρούμε το σίγμα, μπορούμε να υπολογίσουμε το απαιτούμενο διάστημα. Αλλά το sigma εδώ είναι η παράμετρος πληθυσμού και γνωρίζουμε ότι συχνά είναι σχεδόν αδύνατο να υπολογιστεί, επομένως θα χρησιμοποιήσουμε δείγματα στατιστικών στοιχείων, π.χ. Τυπικό σφάλμα. Αυτό δίνεται ως

όπου p^= αναλογία δείγματος, n=αριθμός δειγμάτων

SE =√(0.62 . 0.38/100) = 0.05

άρα, 2xSE = 0.1

Το διάστημα εμπιστοσύνης για τα δεδομένα μας είναι (0.62-0.1,0.62+0.1) ή (0.52,0.72). Όπως έχουμε πάρει 2xSE αυτό μεταφράζεται σε 95% διάστημα εμπιστοσύνης.

Τώρα, το ερώτημα είναι τι γίνεται αν θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 92%; Στο προηγούμενο παράδειγμα, πολλαπλασιάσαμε το 2 με το SE για να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95%, αυτό το 2 είναι η βαθμολογία z για ένα διάστημα εμπιστοσύνης 95% (η ακριβής τιμή είναι 1.96) και αυτή η τιμή μπορεί να βρεθεί από έναν πίνακα z. Η κρίσιμη τιμή του z για ένα διάστημα εμπιστοσύνης 92% είναι 1.75. Αναφέρομαι σε αυτό άρθρο για καλύτερη κατανόηση του z-score και του z-table.

Το διάστημα δίνεται από: (p^ + z*.SE , p^-z*.SE).

Εάν αντί της αναλογίας δείγματος δίνεται η μέση τιμή δείγματος, το τυπικό σφάλμα θα είναι sigma/sqrt(n). Εδώ σίγμα είναι η απόκλιση STD πληθυσμού, καθώς συχνά δεν έχουμε, χρησιμοποιούμε αντ 'αυτού την απόκλιση STD δείγματος. Αλλά συχνά παρατηρείται ότι αυτού του είδους η εκτίμηση όπου δίνεται ο μέσος όρος το αποτέλεσμα τείνει να είναι λίγο προκατειλημμένη. Έτσι, σε περιπτώσεις όπως αυτή, προτιμάται η χρήση t-statistic αντί για z-statistics.

Ο γενικός τύπος για ένα διάστημα εμπιστοσύνης με στατιστικές z δίνεται από

Εδώ, η στατιστική αναφέρεται είτε στον μέσο όρο του δείγματος είτε στην αναλογία δείγματος. σίγμαs είναι η τυπική απόκλιση πληθυσμού.

Ερμηνεία Διαστημάτων Εμπιστοσύνης

Είναι πολύ σημαντικό να ερμηνεύονται σωστά τα διαστήματα εμπιστοσύνης. Εξετάστε το προηγούμενο παράδειγμα δημοσκόπησης όπου υπολογίσαμε ότι το 95% του διαστήματος εμπιστοσύνης είναι (0.52,0.62). Τι σημαίνει αυτό? Λοιπόν, ένα διάστημα εμπιστοσύνης 95% σημαίνει ότι αν αντλήσουμε n δείγματα από τον πληθυσμό, τότε το 95% του χρόνου το προκύπτον διάστημα θα περιέχει την πραγματική αναλογία πληθυσμού. Θυμηθείτε ότι ένα διάστημα εμπιστοσύνης 95% δεν σημαίνει ότι υπάρχει πιθανότητα 95% ότι το διάστημα περιέχει την πραγματική αναλογία πληθυσμού. Για παράδειγμα, για ένα διάστημα εμπιστοσύνης 90%, αν αντλήσουμε 10 δείγματα από έναν πληθυσμό, τότε 9 στις 10 φορές το εν λόγω διάστημα θα περιέχει την πραγματική παράμετρο πληθυσμού. Κοιτάξτε την παρακάτω εικόνα για καλύτερη κατανόηση.

Ερμηνεία του διαστήματος εμπιστοσύνης

                                                            η εικόνα ανήκει στον συγγραφέα

Υποθέσεις για διαστήματα εμπιστοσύνης με χρήση στατιστικής Z

Υπάρχουν ορισμένες υποθέσεις που πρέπει να αναζητήσουμε για να δημιουργήσουμε ένα έγκυρο διάστημα εμπιστοσύνης χρησιμοποιώντας z-statistic.

  1. Τυχαίο δείγμα: Τα δείγματα πρέπει να είναι τυχαία. Υπάρχουν διαφορετικές μέθοδοι δειγματοληψίας όπως η στρωματοποιημένη δειγματοληψία, η απλή τυχαία δειγματοληψία, η δειγματοληψία σε ομάδες για τη λήψη τυχαίων δειγμάτων.
  2. Κανονική συνθήκη: Τα δεδομένα πρέπει να ικανοποιούν αυτήν την συνθήκη np^>=10 και n.(1-p^)>=10. Αυτό ουσιαστικά σημαίνει ότι η δειγματοληπτική κατανομή των μέσων δειγμάτων πρέπει να είναι κανονική, όχι λοξή σε καμία από τις δύο πλευρές.
  3. Ανεξάρτητο: Τα δείγματα πρέπει να είναι ανεξάρτητα. Ο αριθμός των δειγμάτων πρέπει να είναι μικρότερος ή ίσος με το 10% του συνολικού πληθυσμού ή εάν η δειγματοληψία γίνεται με αντικατάσταση.

Διαστήματα εμπιστοσύνης με Τ-statistic

Τι γίνεται εάν το μέγεθος του δείγματος είναι σχετικά μικρό και η τυπική απόκλιση του πληθυσμού δεν δίνεται ή δεν μπορεί να υποτεθεί; Πώς κατασκευάζουμε ένα διάστημα εμπιστοσύνης; Λοιπόν, εκεί μπαίνει η στατιστική t. Ο βασικός τύπος για την εύρεση του διαστήματος εμπιστοσύνης εδώ παραμένει ο ίδιος με το z* να αντικαθίσταται από το t*. Ο γενικός τύπος δίνεται από

όπου S = τυπική απόκλιση δείγματος, n = αριθμός δειγμάτων

Ας υποθέσουμε ότι διοργανώσατε ένα πάρτι και θέλετε να υπολογίσετε τη μέση κατανάλωση μπύρας από τους καλεσμένους σας. Έτσι, λαμβάνετε ένα τυχαίο δείγμα 20 ατόμων και μετράτε την κατανάλωση μπύρας. Τα δεδομένα του δείγματος είναι συμμετρικά με μέση απόκλιση 0f 1200 ml και απόκλιση std 120 ml. Έτσι, τώρα θέλετε να δημιουργήσετε ένα διάστημα εμπιστοσύνης 95%.

Έτσι, έχουμε την απόκλιση std δείγματος, τον αριθμό των δειγμάτων και τον μέσο όρο του δείγματος. Το μόνο που χρειαζόμαστε είναι t*. Άρα, το t* για ένα διάστημα εμπιστοσύνης 95% με βαθμό ελευθερίας 19(n-1 = 20-1) είναι 2.093. Άρα, το απαιτούμενο διάστημα μας είναι αφού ο υπολογισμός είναι (1256.16, 1143.83) με περιθώριο σφάλματος 56.16. Αναφέρομαι σε αυτό βίντεο για να μάθετε πώς να διαβάζετε τον πίνακα t.

Υποθέσεις για CI με χρήση στατιστικής Τ

Παρόμοια με την περίπτωση του z-statistic εδώ, στην περίπτωση του t-statistic, επίσης, υπάρχουν ορισμένες προϋποθέσεις που πρέπει να προσέξουμε σε δεδομένα δεδομένα.

  1. Το δείγμα πρέπει να είναι τυχαίο
  2. Το δείγμα πρέπει να είναι κανονικό. Για να είναι κανονικό το μέγεθος του δείγματος θα πρέπει να είναι μεγαλύτερο ή ίσο με 30 ή εάν το γονικό σύνολο δεδομένων, δηλαδή ο πληθυσμός είναι περίπου κανονικός. Ή εάν το μέγεθος του δείγματος είναι κάτω από 30, τότε η κατανομή πρέπει να είναι κατά προσέγγιση συμμετρική.
  3. Οι μεμονωμένες παρατηρήσεις πρέπει να είναι ανεξάρτητες. Αυτό σημαίνει ότι ακολουθεί τον κανόνα του 10% ή η δειγματοληψία γίνεται με αντικατάσταση.

Δημιουργία διαστήματος T για ζευγαρωμένα δεδομένα

Μέχρι τώρα χρησιμοποιούσαμε μόνο δεδομένα ενός δείγματος. Τώρα θα δούμε πώς μπορούμε να κατασκευάσουμε ένα διάστημα t για ζευγαρωμένα δεδομένα. Σε ζευγαρωμένα δεδομένα, κάνουμε δύο παρατηρήσεις στο ίδιο άτομο. Για παράδειγμα, σύγκριση βαθμών μαθητών πριν και μετά τη δοκιμή ή δεδομένα σχετικά με την επίδραση ενός φαρμάκου και ενός εικονικού φαρμάκου σε μια ομάδα ατόμων. Στα ζευγαρωμένα δεδομένα, βρήκαμε τη διαφορά μεταξύ των δύο παρατηρήσεων στην 3η στήλη. Ως συνήθως, θα περάσουμε από ένα παράδειγμα για να κατανοήσουμε και αυτή την έννοια,

Ερ. Ένας δάσκαλος προσπάθησε να αξιολογήσει την επίδραση ενός νέου προγράμματος σπουδών στο αποτέλεσμα του τεστ. Ακολουθούν τα αποτελέσματα των παρατηρήσεων.

Διάστημα T για ζευγαρωμένα δεδομένα

                                                      η εικόνα ανήκει στον συγγραφέα

Καθώς σκοπεύουμε να βρούμε διαστήματα για τη μέση διαφορά, χρειαζόμαστε μόνο τα στατιστικά στοιχεία για τις διαφορές. Θα χρησιμοποιήσουμε τον ίδιο τύπο που χρησιμοποιούσαμε πριν

στατιστική +- (κρίσιμη τιμή ή τιμή t) (τυπική απόκλιση της στατιστικής)

xd = μέσος όρος διαφοράς, Sd = απόκλιση δείγματος std, για 95% CI με βαθμό ελευθερίας 5 t* δίνεται από το 2.57. Το περιθώριο σφάλματος = 0.97 και το διάστημα εμπιστοσύνης (4.18,6.13).

Ερμηνεία: Από τις παραπάνω εκτιμήσεις όπως μπορούμε να δούμε το διάστημα εμπιστοσύνης δεν περιέχει μηδενικές ή αρνητικές τιμές. Άρα, μπορούμε να συμπεράνουμε ότι το νέο πρόγραμμα σπουδών είχε θετικό αντίκτυπο στις επιδόσεις των μαθητών στα τεστ. Αν είχε μόνο αρνητικές αξίες τότε θα μπορούσαμε να πούμε ότι το πρόγραμμα σπουδών είχε αρνητικό αντίκτυπο. Ή εάν περιείχε μηδέν, τότε θα μπορούσε να υπάρχει πιθανότητα η διαφορά να ήταν μηδενική ή καμία επίδραση του προγράμματος σπουδών στα αποτελέσματα των εξετάσεων.

Z-value vs T-value

Υπάρχει μεγάλη σύγχυση στην αρχή σχετικά με το πότε να χρησιμοποιήσετε τι. Ο εμπειρικός κανόνας είναι όταν το μέγεθος του δείγματος είναι >= 30 και η τυπική απόκλιση πληθυσμού είναι γνωστό ότι χρησιμοποιεί στατιστικές z. Σε περίπτωση που το μέγεθος του δείγματος είναι < 30 χρησιμοποιήστε t-statistics. Στην πραγματική ζωή, δεν έχουμε παραμέτρους πληθυσμού, επομένως θα πάμε με z ή t με βάση το μέγεθος του δείγματος.

Με μικρότερα δείγματα (n<30) το κεντρικό οριακό θεώρημα δεν ισχύει και χρησιμοποιείται μια άλλη κατανομή που ονομάζεται κατανομή t Student. Η κατανομή t είναι παρόμοια με την κανονική κατανομή αλλά παίρνει διαφορετικά σχήματα ανάλογα με το μέγεθος του δείγματος. Αντί για τιμές z, χρησιμοποιούνται τιμές t που είναι μεγαλύτερες για μικρότερα δείγματα, παράγοντας μεγαλύτερο περιθώριο σφάλματος. Καθώς ένα μικρό μέγεθος δείγματος θα είναι λιγότερο ακριβές.

Διαστήματα εμπιστοσύνης με Python

Η Python διαθέτει μια τεράστια βιβλιοθήκη που υποστηρίζει κάθε είδους στατιστικούς υπολογισμούς που κάνουν τη ζωή μας λίγο πιο εύκολη. Σε αυτή την ενότητα, θα εξετάσουμε τα δεδομένα σχετικά με τις συνήθειες ύπνου των νηπίων. Οι 20 συμμετέχοντες σε αυτές τις παρατηρήσεις ήταν υγιείς, είχαν φυσιολογική συμπεριφορά, δεν είχαν καμία διαταραχή ύπνου. Στόχος μας είναι να αναλύσουμε την ώρα ύπνου των νηπίων που κοιμούνται και δεν κοιμούνται.

Αναφορά: Akacem LD, Simpkin CT, Carskadon MA, Wright KP Jr, Jenni OG, Achermann P, et al. (2015) Ο χρόνος του κιρκάδιου ρολογιού και του ύπνου διαφέρει μεταξύ των νηπίων που κοιμούνται και δεν κοιμούνται. PLoS ONE 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

Θα εισάγουμε βιβλιοθήκες που θα χρειαστούμε

εισαγωγή numpy ως np εισαγωγή panda ως pd από το scipy.stats εισαγωγή t pd.set_option('display.max_columns', 30) # set έτσι ώστε να μπορείτε να δείτε όλες τις στήλες των μαθηματικών εισαγωγής DataFrame
df = pd.read_csv(nap_no_nap.csv) #reading data
df.head ()
Διαστήματα εμπιστοσύνης με Python

Δημιουργήστε δύο διαστήματα εμπιστοσύνης 95% για τη μέση ώρα ύπνου, ένα για τα νήπια που κοιμούνται και ένα για τα νήπια που δεν κοιμούνται. Αρχικά, θα απομονώσουμε τη στήλη 'νυχτερινή ώρα ύπνου' για όσους κοιμούνται σε μια νέα μεταβλητή και για όσους δεν κοιμούνται σε μια άλλη νέα μεταβλητή. Η ώρα ύπνου εδώ είναι δεκαδική.

bedtime_nap = df['νυχτερινός ύπνος'].loc[df['napping'] == 1] bedtime_no_nap = df['νυχτερινός ύπνος'].loc[df['napping'] == 0]

print(len(bedtime_nap))

print(len(bedtime_no_nap))

έξοδος: 15 n 5


Τώρα, θα βρούμε το δείγμα μέσης ώρας ύπνου για τον υπνάκο και το no_nap.

nap_mean_bedtime = bedtime_nap.mean() #20.304 no_nap_mean_bedtime = bedtime_no_nap.mean() #19.59

Τώρα, θα βρούμε το δείγμα τυπικής απόκλισης για το Xχνούδι και Χόχι υπνάκο 

nap_s_bedtime = np.std(bedtime_nap,ddof=1) no_nap_s_bedtime = np.std(bedtime_no_nap,ddof=1)

Σημείωση: Η παράμετρος ddof έχει οριστεί σε 1 για δείγμα std dev, διαφορετικά θα γίνει πληθυσμός std dev.

Τώρα, θα βρούμε το δείγμα τυπικού σφάλματος για το Xχνούδι και Χόχι υπνάκο 

nap_se_mean_bedtime = nap_s_bedtime/math.sqrt(len(bedtime_nap)) #0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime/math.sqrt(len(bedtime_no_nap)) #0.2270

Μέχρι στιγμής όλα καλά, τώρα καθώς το μέγεθος του δείγματος είναι μικρό και δεν έχουμε τυπική απόκλιση αναλογίας πληθυσμού, θα χρησιμοποιήσουμε την τιμή t*. Ένας τρόπος για να βρείτε την τιμή t* είναι χρησιμοποιώντας scipy.stats t.ppf λειτουργία. Τα ορίσματα για το t.ppf() είναι q = ποσοστό, df = βαθμός ελευθερίας, κλίμακα = std dev, loc = μέσος όρος. Καθώς η κατανομή t είναι συμμετρική για ένα διάστημα εμπιστοσύνης 95% το q θα είναι 0.975. Αναφέρομαι σε αυτό για περισσότερες πληροφορίες σχετικά με το t.ppf().

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

Τώρα, θα προσθέσουμε τα κομμάτια για να κατασκευάσουμε τελικά το διάστημα εμπιστοσύνης μας.

nap_ci_plus = nap_mean_bedtime + nap_t_star*nap_se_bedtime

nap_ci_minus = nap_mean_bedtime – nap_t_star*nap_se_bedtime

print(nap_ci_minus,nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star*nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime – no_nap_t_star*nap_se_bedtime

print(no_nap_ci_minus,no_nap_ci_plus)


έξοδος: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

Ερμηνεία: 

Από τα παραπάνω αποτελέσματα, συμπεραίνουμε ότι είμαστε 95% σίγουροι ότι η μέση ώρα ύπνου για τα νήπια που κοιμούνται είναι μεταξύ 19.98 – 20.63 (μ.μ.) ενώ για τα νήπια που δεν κοιμούνται είναι μεταξύ 18.96 – 20.22 (μ.μ.). Αυτά τα αποτελέσματα είναι σύμφωνα με τις προσδοκίες μας ότι αν πάρετε έναν υπνάκο κατά τη διάρκεια της ημέρας, θα κοιμηθείτε αργά το βράδυ.

Σημειώσεις τέλους

Έτσι, όλα αυτά αφορούσαν απλά διαστήματα εμπιστοσύνης χρησιμοποιώντας τιμές z και t. Είναι πράγματι μια σημαντική έννοια να γνωρίζουμε στην περίπτωση οποιασδήποτε στατιστικής μελέτης. Μια μεγάλη συμπερασματική στατιστική μέθοδος για την εκτίμηση των παραμέτρων πληθυσμού από δεδομένα δείγματος. Τα διαστήματα εμπιστοσύνης συνδέονται επίσης με τον έλεγχο υποθέσεων ότι για 95% CI αφήνετε 5% χώρο για ανωμαλίες. Εάν η μηδενική υπόθεση εμπίπτει στο διάστημα εμπιστοσύνης, τότε η τιμή p θα είναι μεγάλη και δεν θα μπορούμε να απορρίψουμε τη μηδενική. Αντίθετα, αν πέσει πέρα ​​από αυτό, τότε θα έχουμε επαρκή απόδειξη για να απορρίψουμε μηδενικές και να αποδεχθούμε εναλλακτικές υποθέσεις.

Ελπίζω να σας άρεσε το άρθρο και καλή χρονιά (:

Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.

Πηγή: https://www.analyticsvidhya.com/blog/2022/01/understanding-struction-intervals-with-python/

Σφραγίδα ώρας:

Περισσότερα από Ανάλυση Vidhya