Memahami Interval Keyakinan dengan Python

Node Sumber: 1883080

Artikel ini diterbitkan sebagai bagian dari Blogathon Ilmu Data.

Daftar Isi

  1. Pengantar
  2. Interval Keyakinan dengan Z-statistik
  3. Menafsirkan Interval Keyakinan
  4. Asumsi untuk CI menggunakan z-statistic
  5. Interval kepercayaan dengan t-statistik
  6. Asumsi untuk CI menggunakan t-statistik
  7. Membuat t-interval dengan data berpasangan
  8. nilai-z vs nilai-t: kapan harus menggunakan apa?
  9. Interval Keyakinan dengan python
  10. Catatan Akhir

Pengantar

Setiap kali kita memecahkan masalah statistik, kita khawatir tentang estimasi parameter populasi tetapi lebih sering daripada tidak, hampir tidak mungkin untuk menghitung parameter populasi. Apa yang kami lakukan adalah mengambil sampel acak dari populasi dan menghitung statistik sampel yang diharapkan untuk memperkirakan parameter populasi. Tapi bagaimana kita tahu jika sampel benar-benar mewakili populasi atau seberapa jauh statistik sampel ini menyimpang dari parameter populasi? Di sinilah interval kepercayaan muncul. Jadi, apa interval ini? Interval kepercayaan adalah rentang nilai yang berkisar di atas dan di bawah statistik sampel atau kita juga dapat mendefinisikannya sebagai probabilitas bahwa rentang nilai di sekitar statistik sampel berisi parameter populasi sebenarnya.

Interval Keyakinan dengan Z-statistik

Sebelum mendalami topik ini, mari berkenalan dengan beberapa terminologi statistik.

populasi: Himpunan dari semua individu yang sejenis. Misalnya penduduk suatu kota, mahasiswa suatu perguruan tinggi, dll.

mencicipi: Ini adalah satu set kecil individu serupa yang diambil dari populasi. Demikian pula, sampel acak adalah sampel yang diambil secara acak dari populasi.

parameter: Mean(mu), standar deviasi(sigma), proporsi(p) yang diturunkan dari populasi.

statistik: mean(x bar), stddeviasi(S), proporsi(p^) berkaitan dengan sampel.

Skor-Z: ini adalah jarak titik data mentah mana pun pada distribusi normal dari rata-rata yang dinormalisasi oleh deviasi std. Diberikan oleh: x-mu/sigma

Baiklah sekarang kita siap untuk menyelam jauh ke dalam konsep interval kepercayaan. Untuk beberapa alasan, saya percaya jauh lebih baik untuk memahami konsep melalui contoh yang berhubungan daripada definisi matematika mentah. Jadi mari kita mulai.

misalkan, Anda tinggal di kota berpenduduk 100,000 dan pemilihan sudah dekat. Sebagai lembaga survei, Anda harus meramalkan siapa yang akan memenangkan pemilu baik partai biru atau kuning. Jadi, Anda melihat hampir tidak mungkin mengumpulkan informasi dari seluruh populasi sehingga Anda memilih 100 orang secara acak. Di akhir survei, Anda menemukan bahwa 62% orang akan memilih warna kuning. Sekarang pertanyaannya adalah haruskah kita menyimpulkan bahwa kuning akan menang dengan probabilitas menang 62% atau 62% dari seluruh populasi akan memilih kuning? Nah, jawabannya adalah TIDAK. Kami tidak tahu pasti seberapa jauh estimasi kami dari parameter sebenarnya, jika kami mengambil sampel lain hasilnya bisa menjadi 58% atau 65%. Jadi, yang akan kita lakukan adalah menemukan rentang nilai di sekitar statistik sampel kita yang kemungkinan besar akan menangkap proporsi populasi yang sebenarnya. Di sini, proporsi mengacu pada persentase

Interval Keyakinan dengan Python

                                                                   gambar milik penulis

Sekarang, jika kita mengambil seratus sampel seperti itu dan memplot proporsi sampel dari setiap sampel, kita akan mendapatkan distribusi proporsi sampel yang normal dan rata-rata distribusi akan menjadi nilai yang paling mendekati dari proporsi populasi. Dan perkiraan kami bisa terletak di mana saja pada kurva distribusi. Sesuai aturan 3-sigma, kita tahu bahwa sekitar 95% dari variabel acak terletak dalam penyimpangan 2 std dari rata-rata distribusi. Jadi, kita dapat menyimpulkan bahwa probabilitas bahwa p^ berada dalam 2 std deviasi dari p adalah 95%. Atau kita juga dapat menyatakan bahwa peluang p berada dalam 2 std deviasi di bawah dan di atas p^ juga 95%. Kedua pernyataan ini secara efektif setara. Dua titik di bawah dan di atas p^ ini adalah interval kepercayaan kita.

Interval Keyakinan dengan Python

                                                           gambar milik penulis

Jika kita entah bagaimana dapat menemukan sigma, kita dapat menghitung interval yang diperlukan. Tapi sigma di sini adalah parameter populasi dan kita tahu bahwa seringkali hampir mustahil untuk menghitungnya, jadi kita akan menggunakan statistik sampel yaitu Standard error. Ini diberikan sebagai

di mana p^= proporsi sampel, n=jumlah sampel

SE =(0.62 . 0.38/100) = 0.05

jadi, 2xSE = 0.1

Interval kepercayaan untuk data kami adalah (0.62-0.1,0.62+0.1) atau (0.52,0.72). Karena kami telah mengambil 2xSE, ini berarti interval kepercayaan 95%.

Sekarang, pertanyaannya adalah bagaimana jika kita ingin membuat interval kepercayaan 92%? Dalam contoh sebelumnya, kami mengalikan 2 dengan SE untuk membangun interval kepercayaan 95%, 2 ini adalah skor-z untuk interval kepercayaan 95% (nilai tepatnya adalah 1.96) dan nilai ini dapat ditemukan dari tabel-z. Nilai kritis z untuk selang kepercayaan 92% adalah 1.75. Mengacu pada ini artikel untuk pemahaman yang lebih baik tentang skor-z dan tabel-z.

Interval diberikan oleh: (p^ + z*.SE , p^-z*.SE).

Jika alih-alih proporsi sampel rata-rata sampel diberikan kesalahan standar adalah sigma/kuadrat(n). Ini sigma adalah deviasi std populasi karena kami sering kali tidak menggunakan deviasi std sampel sebagai gantinya. Tetapi sering diamati bahwa estimasi semacam ini di mana rata-rata diberikan hasilnya cenderung sedikit bias. Jadi dalam kasus seperti ini, lebih disukai menggunakan t-statistik daripada z-statistik.

Rumus umum untuk selang kepercayaan dengan z-statistik diberikan oleh

Di sini, statistik mengacu pada rata-rata sampel atau proporsi sampel. sigmas adalah simpangan baku populasi.

Menafsirkan Interval Keyakinan

Sangat penting untuk menginterpretasikan interval kepercayaan dengan benar. Pertimbangkan contoh jajak pendapat sebelumnya di mana kami menghitung interval kepercayaan 95% kami menjadi (0.52,0.62). Apa artinya? Nah, interval kepercayaan 95% berarti jika kita mengambil n sampel dari populasi maka 95% dari waktu interval yang diturunkan akan berisi proporsi populasi yang sebenarnya. Ingat interval kepercayaan 95% tidak berarti bahwa ada probabilitas 95% bahwa interval tersebut berisi proporsi populasi yang sebenarnya. Misalnya, untuk interval kepercayaan 90% jika kita mengambil 10 sampel dari suatu populasi, maka 9 dari 10 kali interval tersebut akan berisi parameter populasi yang sebenarnya. Perhatikan gambar di bawah ini untuk pemahaman yang lebih baik.

Menafsirkan interval kepercayaan

                                                            gambar milik penulis

Asumsi untuk interval kepercayaan menggunakan Z-statistik

Ada asumsi tertentu yang perlu kita cari untuk membangun interval kepercayaan yang valid menggunakan z-statistik.

  1. Sampel acak: Sampel harus acak. Ada metode pengambilan sampel yang berbeda seperti pengambilan sampel bertingkat, pengambilan sampel acak sederhana, pengambilan sampel cluster untuk mendapatkan sampel acak.
  2. Kondisi normal: Data harus memenuhi kondisi ini np^>=10 dan n.(1-p^)>=10. Yang pada dasarnya berarti adalah distribusi sampel kami berarti sampel harus normal, tidak miring di kedua sisi.
  3. Independen: Sampel harus independen. Jumlah sampel harus kurang dari atau sama dengan 10% dari total populasi atau jika pengambilan sampel dilakukan dengan penggantian.

Interval Keyakinan dengan T-statistik

Bagaimana jika ukuran sampel relatif kecil dan simpangan baku populasi tidak diberikan atau tidak dapat diasumsikan? Bagaimana kita membangun interval kepercayaan? nah, di situlah t-statistik masuk. Rumus dasar untuk mencari interval kepercayaan di sini tetap sama hanya dengan z* diganti dengan t*. Rumus umum diberikan oleh

dimana S = simpangan baku sampel, n = jumlah sampel

Misalkan, Anda mengadakan pesta dan Anda ingin memperkirakan konsumsi rata-rata bir oleh tamu Anda. Jadi, Anda mendapatkan sampel acak 20 orang dan mengukur konsumsi bir. Data sampel simetris dengan mean 0f 1200 ml dan std deviasi 120 ml. Jadi, sekarang Anda ingin membangun interval kepercayaan 95%.

Jadi, kami memiliki deviasi std sampel, jumlah sampel, dan rata-rata sampel. Yang kita butuhkan hanyalah t*. Jadi, t* untuk selang kepercayaan 95% dengan derajat kebebasan 19(n-1 = 20-1) adalah 2.093. Jadi, interval yang kita butuhkan setelah perhitungan adalah (1256.16, 1143.83) dengan margin error 56.16. Mengacu pada ini video untuk mengetahui cara membaca t-tabel.

Asumsi untuk CI menggunakan T-statistik

Mirip dengan kasus z-statistik di sini dalam kasus t-statistik juga ada beberapa kondisi yang perlu kita perhatikan dalam data yang diberikan.

  1. Sampel harus acak
  2. Sampel harus normal. Untuk menjadi normal ukuran sampel harus lebih besar atau sama dengan 30 atau jika kumpulan data induk yaitu populasi kira-kira normal. Atau jika ukuran sampel di bawah 30 maka distribusinya harus kira-kira simetris.
  3. Pengamatan individu harus independen. Artinya mengikuti aturan 10% atau pengambilan sampel dilakukan dengan penggantian.

Membuat interval-T untuk data berpasangan

Sampai saat ini kami hanya menggunakan satu sampel data. Sekarang kita akan melihat bagaimana kita dapat membangun interval-t untuk data berpasangan. Dalam data berpasangan, kami melakukan dua pengamatan pada individu yang sama. Misalnya, membandingkan nilai pre-test dan post-test siswa atau data tentang efek obat dan plasebo pada sekelompok orang. Pada data berpasangan, kami menemukan perbedaan antara dua pengamatan di kolom ke-3. Seperti biasa, kita akan melalui contoh untuk memahami konsep ini juga,

Q. Seorang guru mencoba mengevaluasi pengaruh kurikulum baru terhadap hasil tes. Berikut adalah hasil observasinya.

Interval T untuk data berpasangan

                                                      gambar milik penulis

Karena kami bermaksud untuk menemukan interval untuk perbedaan rata-rata, kami hanya membutuhkan statistik untuk perbedaannya. Kami akan menggunakan rumus yang sama yang kami gunakan sebelumnya

statistik +- (nilai kritis atau nilai t) (standar deviasi statistik)

xd = rata-rata selisih, Sd = simpangan std sampel, untuk CI 95% dengan derajat bebas 5 t* diberikan oleh 2.57. Margin of error = 0.97 dan selang kepercayaan (4.18,6.13).

Interpretasi: Dari perkiraan di atas seperti yang kita lihat, interval kepercayaan tidak mengandung nilai nol atau negatif. Jadi, kita dapat menyimpulkan bahwa kurikulum baru memiliki dampak positif pada kinerja tes siswa. Jika hanya memiliki nilai negatif maka dapat dikatakan bahwa kurikulum berdampak negatif. Atau jika mengandung nol maka ada kemungkinan perbedaan itu nol atau tidak ada pengaruh kurikulum terhadap hasil tes.

Nilai Z vs nilai T

Ada banyak kebingungan di awal tentang kapan harus menggunakan apa. Aturan praktisnya adalah ketika ukuran sampel >= 30 dan standar deviasi populasi diketahui menggunakan z-statistik. Jika ukuran sampel < 30 gunakan t-statistik. Dalam kehidupan nyata, kami tidak memiliki parameter populasi jadi kami akan menggunakan z atau t berdasarkan ukuran sampel.

Dengan sampel yang lebih kecil (n<30) teorema LImit pusat tidak berlaku, dan distribusi lain yang disebut distribusi-t Student digunakan. Distribusi t mirip dengan distribusi normal tetapi mengambil bentuk yang berbeda tergantung pada ukuran sampel. Alih-alih nilai z, nilai t digunakan yang lebih besar untuk sampel yang lebih kecil, menghasilkan margin kesalahan yang lebih besar. Karena ukuran sampel yang kecil akan kurang tepat.

Interval Keyakinan dengan Python

Python memiliki perpustakaan yang luas yang mendukung semua jenis perhitungan statistik yang membuat hidup kita sedikit lebih mudah. Pada bagian ini, kita akan melihat data kebiasaan tidur balita. Ke-20 peserta observasi ini sehat, berperilaku normal, tidak memiliki gangguan tidur. Tujuan kami adalah untuk menganalisis waktu tidur balita dan non-tidur siang.

Referensi: Akacem LD, Simpkin CT, Carskadon MA, Wright KP Jr, Jenni OG, Achermann P, dkk. (2015) Waktu Jam Sirkadian dan Tidur Berbeda antara Balita Tidur Siang dan Tidak Tidur Siang. PLoS SATU 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

Kami akan mengimpor perpustakaan yang kami butuhkan

import numpy as np import pandas as pd from scipy.stats import t pd.set_option('display.max_columns', 30) # set agar bisa melihat semua kolom dari DataFrame import math
df = pd.read_csv(nap_no_nap.csv) #membaca data
df.head ()
Interval Keyakinan dengan Python

Buat dua interval kepercayaan 95% untuk waktu tidur rata-rata, satu untuk balita yang tidur siang dan satu untuk balita yang tidak tidur siang. Pertama, kami akan mengisolasi kolom 'waktu tidur malam' untuk mereka yang tidur siang ke variabel baru, dan mereka yang tidak tidur siang ke variabel baru lainnya. Waktu tidur di sini didesimalkan.

waktu tidur_nap = df['waktu tidur malam'].loc[df['tidur siang'] == 1] waktu_tidur_tidur = df['waktu tidur malam'].loc[df['tidur siang'] == 0]

print(len(tidur_tidur))

print(len(tidur_tidak_tidur))

keluaran: 15 n 5


Sekarang, kita akan menemukan sampel waktu tidur rata-rata untuk tidur siang dan no_nap.

nap_mean_waktu tidur = waktu tidur_nap.mean() #20.304 no_nap_mean_waktu tidur = waktu tidur_no_nap.mean() #19.59

Sekarang, kita akan mencari simpangan baku sampel untuk Xtidur siang dan Xtidak tidur siang 

nap_s_waktu tidur = np.std(tidur_tidur,ddof=1) no_nap_s_waktu tidur = np.std(tidur_tidur_tidur,ddof=1)

Catatan: Parameter ddof disetel ke 1 untuk sampel std dev atau akan menjadi populasi std dev.

Sekarang, kita akan menemukan kesalahan standar sampel untuk Xtidur siang dan Xtidak tidur siang 

nap_se_mean_waktu tidur = nap_s_waktu tidur/math.sqrt(len(waktu_tidur_nap)) #0.1526 no_nap_se_mean_waktu tidur = no_nap_s_waktu tidur/math.sqrt(len(waktu_tidur_tidur siang)) #0.2270

Sejauh ini bagus, sekarang karena ukuran sampel kecil dan kami tidak memiliki standar deviasi proporsi populasi, kami akan menggunakan nilai t*. Salah satu cara untuk mencari nilai t* adalah dengan menggunakan scipy.stats t.ppf fungsi. Argumen untuk t.ppf() adalah q = persentase, df = derajat kebebasan, skala = std dev, loc = mean. Karena distribusi-t simetris untuk interval kepercayaan 95%, q akan menjadi 0.975. Lihat ini untuk info lebih lanjut tentang t.ppf().

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

Sekarang, kita akan menambahkan potongan untuk akhirnya membangun interval kepercayaan kita.

nap_ci_plus = nap_mean_waktu tidur + nap_t_star*nap_se_waktu tidur

nap_ci_minus = nap_mean_waktu tidur โ€“ nap_t_star*nap_se_waktu tidur

cetak(nap_ci_minus,nap_ci_plus)

no_nap_ci_plus = no_nap_mean_waktu tidur + no_nap_t_star*nap_se_waktu tidur

no_nap_ci_minus = no_nap_mean_waktu tidur โ€“ no_nap_t_star*nap_se_waktu tidur

cetak(no_nap_ci_minus,no_nap_ci_plus)


keluaran: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

Interpretasi: 

Dari hasil di atas, kami menyimpulkan bahwa kami 95% yakin bahwa rata-rata waktu tidur untuk balita tidur siang adalah antara pukul 19.98 โ€“ 20.63 (pm) sedangkan untuk balita yang tidak tidur siang adalah antara 18.96 โ€“ 20.22 (pm). Hasil ini sesuai harapan kami bahwa jika Anda tidur siang di siang hari Anda akan tidur larut malam.

Catatan Akhir

Jadi, ini semua tentang interval kepercayaan sederhana menggunakan nilai z dan t. Ini memang konsep penting untuk diketahui dalam kasus studi statistik apa pun. Metode statistik inferensial yang bagus untuk memperkirakan parameter populasi dari data sampel. Interval kepercayaan juga terkait dengan pengujian hipotesis bahwa untuk 95% CI Anda menyisakan 5% ruang untuk anomali. Jika hipotesis nol berada dalam interval kepercayaan maka nilai p akan besar dan kita tidak akan dapat menolak nol. Sebaliknya, jika jatuh di luar maka kita akan memiliki cukup bukti untuk menolak nol dan menerima hipotesis alternatif.

Semoga Anda menyukai artikel ini dan Selamat Tahun Baru (:

Media yang ditampilkan dalam artikel ini bukan milik Analytics Vidhya dan digunakan atas kebijaksanaan Penulis.

Sumber: https://www.analyticsvidhya.com/blog/2022/01/understanding-confidence-intervals-with-python/

Stempel Waktu:

Lebih dari Analisis Vidhya