Usaldusintervallide mõistmine Pythoni abil

Taasavaldanud Platon

järgijaid: 0

See artikkel avaldati osana Andmeteaduse ajaveebi.

Sisukord

Sissejuhatus
Usaldusintervallid Z-statistikaga
Usaldusintervallide tõlgendamine
Eeldused CI jaoks, kasutades z-statistikat
Usaldusvahemikud t-statistikaga
Eeldused CI jaoks, kasutades t-statistikat
Paaritud andmetega t-intervalli tegemine
z-väärtus vs t-väärtus: millal mida kasutada?
Usaldusintervallid pythoniga
Lõppmärkus

Sissejuhatus

Kui me lahendame statistilist probleemi, oleme mures populatsiooni parameetrite hindamise pärast, kuid enamasti on populatsiooni parameetrite arvutamine peaaegu võimatu. Selle asemel võtame populatsioonist juhuslikud valimid ja arvutame valimistatistika, mis eeldab populatsiooni parameetrite ligikaudset lähendamist. Aga kuidas me teame, kas valimid on populatsiooni tõelised esindajad või kui palju see valimistatistika populatsiooni parameetritest erineb? Siin tulevad pildile usaldusvahemikud. Niisiis, mis need intervallid on? Usaldusvahemik on väärtuste vahemik, mis ulatub valimi statistikast kõrgemale ja allapoole, või saame selle määratleda ka tõenäosusena, et valimistatistika ümber olev väärtusvahemik sisaldab tegelikku populatsiooniparameetrit.

Usaldusintervallid Z-statistikaga

Enne teemasse süvenemist tutvume mõne statistikaterminoloogiaga.

rahvastik: see on kõigi sarnaste isikute kogum. Näiteks linna elanikkond, kolledži üliõpilased jne.

proov: see on väike kogum sarnaseid isendeid, mis on koostatud populatsioonist. Samamoodi on juhuslik valim populatsioonist juhuslikult koostatud valim.

parameetrid: keskmine (mu), standardhälbed (sigma), osakaal (p), mis on tuletatud populatsioonist.

statistika: keskmine (x bar), std hälve (S), proportsioonid (p^) proovidega seotud.

Z-skoor: see on normaaljaotuse mis tahes algandmepunkti kaugus std hälbega normaliseeritud keskmisest. Antud: x-mu/sigma

Praegu oleme valmis sukelduma sügavale usaldusvahemike kontseptsiooni. Millegipärast usun, et mõisteid on palju parem mõista seostatavate näidete, mitte toores matemaatiliste definitsioonide kaudu. Nii et alustame.

Oletame, et elate 100,000 100 elanikuga linnas ja valimised on ukse ees. Küsitluse läbiviijana peate ennustama, kes võidab valimised, kas sinine või kollane. Seega on peaaegu võimatu koguda teavet kogu elanikkonnalt, nii et valite juhuslikult 62 inimest. Küsitluse lõpus leidsite, et 62% inimestest kavatseb hääletada kollase poolt. Nüüd on küsimus, kas peaksime järeldama, et kollane võidab võidutõenäosusega 62% või 58% kogu elanikkonnast hääletab kollase poolt? Noh, vastus on EI. Me ei tea täpselt, kui kaugel meie hinnang tegelikust parameetrist on, kui võtame teise valimi, võib tulemuseks saada 65% või XNUMX%. Selle asemel leiame meie valimistatistika ümber väärtuste vahemiku, mis tõenäoliselt kajastab tegelikku elanikkonna osakaalu. Siin viitab proportsioon protsendile

pilt kuulub autorile

Nüüd, kui võtame sada sellist valimit ja joonistame iga proovi valimi osakaalu, saame valimi osakaalu normaaljaotuse ja jaotuse keskmine on üldkogumi osakaalu kõige ligikaudne väärtus. Ja meie hinnang võib paikneda jaotuskõvera igal pool. 3-sigma reegli kohaselt teame, et umbes 95% juhuslikest muutujatest on jaotuse keskmisest 2 standardhälbe sees. Seega võime järeldada, et tõenäosus, et p^ on 2 standardhälbe sees p on 95%. Või võime ka väita, et tõenäosus, et p jääb 2 std kõrvalekalde piiresse p^-st allpool ja üle, on samuti 95%. Need kaks väidet on sisuliselt samaväärsed. Need kaks punkti p^ all ja kohal on meie usaldusvahemikud.

pilt kuulub autorile

Kui leiame kuidagi sigma, saame arvutada vajaliku intervalli. Kuid sigma on siin populatsiooni parameeter ja me teame, et seda on sageli peaaegu võimatu arvutada, seega kasutame selle asemel näidisstatistikat, st standardviga. See on antud kui

$SE = \sqrt{\hat{p}(1- \hat{p})/n}$

kus p^ = proovi osakaal, n = proovide arv

SE =√(0.62 . 0.38/100) = 0.05

seega 2xSE = 0.1

Meie andmete usaldusvahemik on (0.62-0.1,0.62+0.1) või (0.52,0.72). Nagu oleme võtnud 2xSE, tähendab see 95% usaldusvahemikku.

Nüüd on küsimus, mis siis, kui tahame luua 92% usaldusvahemiku? Eelmises näites korrutasime 2 SE-ga, et konstrueerida 95% usaldusvahemik, see 2 on z-skoor 95% usaldusvahemiku jaoks (täpne väärtus on 1.96) ja selle väärtuse saab leida z-tabelist. z kriitiline väärtus 92% usaldusvahemiku korral on 1.75. Viitama see artikkel z-skoori ja z-tabeli paremaks mõistmiseks.

Intervall on antud: (p^ + z*.SE , p^-z*.SE).

Kui valimi osakaalu asemel on antud valimi keskmine, on standardviga sigma/sqrt(n). Siin sigma on üldkogumi std hälve, kuna meil sageli pole, kasutame selle asemel valimi std hälvet. Kuid sageli on täheldatud, et selline hinnang, kus tulemus on antud, kipub olema pisut kallutatud. Nii et sellistel juhtudel eelistatakse z-statistika asemel kasutada t-statistikat.

Z-statistikaga usaldusvahemiku üldvalem on antud

$statistic \pm z^* . \sigma _ s$

Siin viitab statistika kas valimi keskmisele või valimi osakaalule. sigma_son populatsiooni standardhälve.

Usaldusintervallide tõlgendamine

Väga oluline on usaldusvahemikke õigesti tõlgendada. Vaatleme eelmist küsitleja näidet, kus me arvutasime oma 95% usaldusvahemiku väärtuseks (0.52,0.62, 95). Mida see tähendab? Noh, 95% usaldusvahemik tähendab, et kui võtame populatsioonist n valimit, siis 95% ajast sisaldab tuletatud intervall populatsiooni tegelikku osakaalu. Pidage meeles, et 95% usaldusvahemik ei tähenda, et 90% tõenäosusega on see intervall populatsiooni tegelikku osakaalu. Näiteks 10% usaldusvahemiku korral, kui võtame populatsioonist 9 valimit, sisaldab 10 korda XNUMX-st nimetatud intervallist tõelist populatsiooniparameetrit. Parema mõistmise huvides vaadake allolevat pilti.

pilt kuulub autorile

Usaldusvahemike eeldused Z-statistikat kasutades

z-statistikat kasutades kehtiva usaldusvahemiku koostamiseks peame otsima teatud eeldusi.

Juhuslik valim: valimid peavad olema juhuslikud. Juhuslike valimite saamiseks on erinevaid valimi moodustamise meetodeid, nagu kihiline valim, lihtne juhuslik valim, kobarvalim.
Tavatingimus: andmed peavad vastama sellele tingimusele np^>=10 ja n.(1-p^)>=10. See tähendab sisuliselt seda, et meie proovivõtuvahendite jaotus peab olema normaalne, mitte kummalgi küljel kaldu.
Sõltumatud: proovid peavad olema sõltumatud. Proovide arv peab olema väiksem või võrdne 10% kogupopulatsioonist või kui proovide võtmine toimub asendamisega.

Usaldusintervallid T-statistikaga

Mis siis, kui valimi suurus on suhteliselt väike ja üldkogumi standardhälvet ei ole antud või seda ei saa eeldada? Kuidas me koostame usaldusvahemiku? noh, see on koht, kus t-statistika tuleb sisse. Põhivalem usaldusvahemiku leidmiseks jääb samaks, vaid z* asendatakse t*-ga. Üldvalemi annab

$statistic \pm t^* . S / \sqrt{n}$

kus S = proovi standardhälve, n = proovide arv

Oletame, et korraldasite peo ja soovite hinnata oma külaliste keskmist õlletarbimist. Nii saate 20 inimesest koosneva juhusliku valimi ja mõõtsite õlletarbimist. Prooviandmed on sümmeetrilised, keskmise 0f 1200 ml ja standardhälbega 120 ml. Niisiis, nüüd soovite koostada 95% usaldusvahemiku.

Niisiis, meil on valimi standardhälve, proovide arv ja valimi keskmine. Kõik, mida me vajame, on t*. Seega on t* 95% usaldusvahemiku puhul vabadusastmega 19 (n-1 = 20-1) 2.093. Seega on meie nõutav intervall pärast arvutust (1256.16, 1143.83) veamarginaaliga 56.16. Viitama see video, et teada saada, kuidas t-tabelit lugeda.

Eeldused CI jaoks, kasutades T-statistikat

Sarnaselt z-statistika puhul on siin ka t-statistika puhul mõned tingimused, millele peame antud andmete puhul tähelepanu pöörama.

Valim peab olema juhuslik
Proov peab olema normaalne. Et olla normaalne, peaks valimi suurus olema suurem või võrdne 30-ga või kui lähteandmekogum, st populatsioon on ligikaudu normaalne. Või kui valimi suurus on alla 30, peab jaotus olema ligikaudu sümmeetriline.
Üksikud vaatlused peavad olema sõltumatud. See tähendab, et see järgib 10% reeglit või proovide võtmine toimub asendamisega.

T-intervalli tegemine paarisandmetele

Seni oleme kasutanud ainult ühe näidise andmeid. Nüüd näeme, kuidas saame paarisandmete jaoks konstrueerida t-intervalli. Paarisandmetes teeme sama isiku kohta kaks vaatlust. Näiteks õpilaste testieelsete ja -järgsete hinnete või andmete võrdlemine ravimi ja platseebo mõju kohta isikute rühmale. Paarisandmetes leidsime erinevuse kahe vaatluse vahel 3. veerus. Nagu tavaliselt, vaatame ka selle kontseptsiooni mõistmiseks läbi näite,

K. Õpetaja püüdis hinnata uue õppekava mõju testitulemusele. Allpool on vaatluste tulemused.

pilt kuulub autorile

Kuna me kavatseme leida keskmise erinevuse intervalle, vajame erinevuste statistikat. Kasutame sama valemit, mida kasutasime varem

statistiline +- (kriitiline väärtus või t-väärtus) (statistika standardhälve)

$\bar{x} _{d} \pm t^* . S_{d} / \sqrt{n}$

x_d = erinevuse keskmine, S_d = proovi std hälve, 95% CI jaoks vabadusastmega 5 t* on antud 2.57. Veapiir = 0.97 ja usaldusvahemik (4.18,6.13).

Tõlgendus: ülaltoodud hinnangute põhjal, nagu näeme, ei sisalda usaldusvahemik nulli ega negatiivseid väärtusi. Seega võib järeldada, et uus õppekava avaldas õpilaste testitulemustele positiivset mõju. Kui sellel oleks ainult negatiivsed väärtused, siis võiks öelda, et õppekaval oli negatiivne mõju. Või kui see sisaldas nulli, võib olla võimalus, et erinevus oli null või õppekava ei mõjuta testi tulemusi.

Z-väärtus vs T-väärtus

Alguses on palju segadust, millal mida kasutada. Rusikareegel on siis, kui valimi suurus on >= 30 ja populatsiooni standardhälve kasutab teadaolevalt z-statistikat. Kui valimi suurus on < 30, kasutage t-statistikat. Reaalses elus pole meil populatsiooni parameetreid, seega kasutame valimi suuruse põhjal z või t.

Väiksemate valimite puhul (n<30) keskne piiriteoreem ei kehti ja kasutatakse teist jaotust, mida nimetatakse Studenti t-jaotuseks. T-jaotus sarnaneb normaaljaotusega, kuid võtab sõltuvalt valimi suurusest erineva kuju. Z väärtuste asemel kasutatakse t väärtusi, mis on väiksemate valimite puhul suuremad, mis annab suurema veamarginaali. Kuna valimi suurus on väike, on see vähem täpne.

Usaldusintervallid Pythoniga

Pythonil on tohutu raamatukogu, mis toetab igasuguseid statistilisi arvutusi, mis muudab meie elu pisut lihtsamaks. Selles jaotises vaatleme andmeid väikelaste uneharjumuste kohta. Nendes vaatlustes osalenud 20 olid terved, normaalse käitumisega, neil ei olnud unehäireid. Meie eesmärk on analüüsida magavate ja mitteuinavate väikelaste uneaega.

Viide: Akacem LD, Simpkin CT, Carskadon MA, Wright KP Jr, Jenni OG, Achermann P, et al. (2015) Ööpäevase kella ajastus ja unerežiim erinevad magavate ja mitteuinavate väikelaste vahel. PLoS ONE 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

Impordime vajalikke raamatukogusid

import numpy kui np import pandad pd-na alates scipy.stats import t pd.set_option('display.max_columns', 30) # set, et näeks kõiki DataFrame'i impordi matemaatika veerge

df = pd.read_csv(nap_no_nap.csv) #andmete lugemine

df.head()

Looge keskmise uneaja jaoks kaks 95% usaldusvahemikku, üks väikelaste jaoks, kes magavad, ja teine väikelaste jaoks, kes ei maga. Esiteks isoleerime veeru „Öine magamamineku aeg” nende jaoks, kes uinakuid uinuvad, ja nende jaoks, kes ei uinakunud, teise uue muutuja juurde. Uneaeg on siin kümnendarvuga.

bedtime_nap = df['öine magamaminek'].loc[df['napping'] == 1] bedtime_no_nap = df['öine uneaeg'].loc[df['uinaku'] == 0]

print(len(bedtime_nap))

print(len(bedtime_no_nap))

väljund: 15 n 5

Nüüd leiame keskmise uneaja näidisteks uinak ja no_nap.

nap_mean_bedtime = uneaeg_nap.mean() #20.304 no_nap_mean_bedtime = uneaeg_no_nap.mean() #19.59

Nüüd leiame X-i standardhälbe näidise_uinak ja X_{ei uinakut}

nap_s_bedtime = np.std(bedtime_nap,ddof=1) no_nap_s_bedtime = np.std(bedtime_no_nap,ddof=1)

Märkus. Parameeter ddof on std dev näidise jaoks seatud väärtusele 1, vastasel juhul muutub see populatsiooniks std dev.

Nüüd leiame X jaoks standardvea näidise_uinak ja X_{ei uinakut}

nap_se_mean_bedtime = nap_s_bedtime/math.sqrt(len(bedtime_nap)) #0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime/math.sqrt(len(bedtime_no_nap)) #0.2270

Seni on kõik hästi, nüüd, kuna valimi suurus on väike ja meil pole populatsiooni osakaalu standardhälvet, kasutame t* väärtust. Üks viis t* väärtuse leidmiseks on kasutada scipy.stats t.ppf funktsiooni. T.ppf() argumendid on q = protsent, df = vabadusaste, skaala = std dev, loc = keskmine. Kuna t-jaotus on 95% usaldusvahemiku korral sümmeetriline, on q 0.975. Viitama see lisateabe saamiseks t.ppf().

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

Nüüd lisame tükid, et lõpuks konstrueerida meie usaldusvahemik.

nap_ci_plus = uinak_keskmine_voodiaeg + nap_t_star*nap_se_bedtime

nap_ci_minus = uinak_keskmine_voodiaeg – nap_t_star*nap_se_bedtime

print(nap_ci_miinus,nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star*nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime – no_nap_t_star*nap_se_bedtime

print(no_nap_ci_minus,no_nap_ci_plus)

väljund: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

Suuline tõlge:

Ülaltoodud tulemustest järeldame, et oleme 95% kindlad, et magamise aeg on magavate väikelaste keskmine aeg vahemikus 19.98–20.63 (pm), samas kui uinakut mitte tegevate väikelaste puhul on see vahemikus 18.96–20.22 (pm). Need tulemused vastavad meie ootustele, et kui teete päeval uinaku, magate öösel hilja.

LõppMärkused

Niisiis, see kõik puudutas lihtsaid usaldusvahemikke, kasutades z ja t väärtusi. See on tõepoolest oluline mõiste mis tahes statistilise uuringu puhul. Suurepärane järelduslik statistiline meetod populatsiooni parameetrite hindamiseks valimiandmete põhjal. Usaldusvahemikud on seotud ka hüpoteesi testimisega, et 95% CI korral jätate kõrvalekalde jaoks 5% ruumi. Kui nullhüpotees jääb usaldusvahemikku, on p-väärtus suur ja me ei saa nulli tagasi lükata. Ja vastupidi, kui see jääb kaugemale, on meil piisavalt tõendeid nulli tagasilükkamiseks ja alternatiivsete hüpoteeside aktsepteerimiseks.

Loodetavasti meeldis teile artikkel ja head uut aastat (:

Selles artiklis näidatud meedia ei kuulu Analytics Vidhyale ja seda kasutatakse autori äranägemisel.