درک فواصل اطمینان با پایتون

گره منبع: 1883080

این مقاله به عنوان بخشی از بلاگاتون علم داده.

جدول محتوا

  1. معرفی
  2. فواصل اطمینان با آماره Z
  3. تفسیر فواصل اطمینان
  4. مفروضات CI با استفاده از آماره z
  5. فواصل اطمینان با آماره t
  6. مفروضات CI با استفاده از آماره t
  7. ایجاد فاصله t با داده های جفت شده
  8. z-value در مقابل t-value: چه زمانی از چه چیزی استفاده کنیم؟
  9. فواصل اطمینان با پایتون
  10. پینوشت

معرفی

هر زمان که یک مشکل آماری را حل می کنیم، نگران تخمین پارامترهای جمعیت هستیم، اما اغلب اوقات محاسبه پارامترهای جمعیت تقریباً غیرممکن است. کاری که ما در عوض انجام می دهیم این است که نمونه های تصادفی را از جامعه بگیریم و آمار نمونه را با انتظار تقریبی پارامترهای جمعیت محاسبه کنیم. اما چگونه بفهمیم که نمونه ها نماینده واقعی جامعه هستند یا اینکه این آمارهای نمونه چقدر از پارامترهای جمعیت انحراف دارند؟ اینجاست که فواصل اطمینان نمایان می شود. بنابراین، این فواصل چیست؟ فاصله اطمینان محدوده‌ای از مقادیر است که بالاتر و پایین‌تر از آمار نمونه است یا می‌توانیم آن را به عنوان احتمال اینکه محدوده‌ای از مقادیر در اطراف آمار نمونه حاوی پارامتر جمعیت واقعی است تعریف کنیم.

فواصل اطمینان با آماره Z

قبل از پرداختن به موضوع، اجازه دهید با برخی اصطلاحات آماری آشنا شویم.

جمعیت: مجموعه همه افراد مشابه است. به عنوان مثال جمعیت یک شهر، دانشجویان یک دانشکده و غیره.

نمونه: مجموعه کوچکی از افراد مشابه برگرفته از جمعیت است. به طور مشابه، نمونه تصادفی نمونه ای است که به طور تصادفی از جامعه گرفته می شود.

پارامترهای: میانگین (mu)، انحراف معیار (سیگما)، نسبت (p) به دست آمده از جمعیت.

آمار: میانگین (x bar)، انحراف std (S)، نسبت (p^) مربوط به نمونه‌ها.

نمره Z: فاصله هر نقطه داده خام در یک توزیع نرمال از میانگین نرمال شده با انحراف std است. ارائه شده توسط: x-mu/sigma

در حال حاضر ما آماده ایم تا عمیقاً در مفهوم فواصل اطمینان فرو برویم. بنا به دلایلی، من معتقدم درک مفاهیم از طریق مثال های مرتبط به جای تعاریف خام ریاضی بسیار بهتر است. پس بیایید شروع کنیم.

فرض کنید، شما در شهری با جمعیت 100,000 نفر زندگی می کنید و انتخابات نزدیک است. به عنوان یک نظرسنجی، شما باید پیش بینی کنید که چه کسی در انتخابات پیروز می شود یا حزب آبی یا زرد. بنابراین، می بینید که جمع آوری اطلاعات از کل جمعیت تقریبا غیرممکن است، بنابراین به طور تصادفی 100 نفر را انتخاب می کنید. در پایان نظرسنجی متوجه شدید که 62 درصد از مردم به رنگ زرد رای می دهند. حال سوال این است که آیا باید نتیجه بگیریم که زرد با احتمال برد 62 درصد برنده می شود یا 62 درصد کل جمعیت به زرد رای می دهند؟ خوب، پاسخ خیر است. ما به طور قطع نمی دانیم که تخمین ما چقدر از پارامتر واقعی فاصله دارد، اگر نمونه دیگری را انتخاب کنیم، نتیجه ممکن است 58٪ یا 65٪ باشد. بنابراین، کاری که به جای آن انجام خواهیم داد این است که محدوده ای از مقادیر را در اطراف آمار نمونه خود پیدا کنیم که به احتمال زیاد نسبت واقعی جمعیت را نشان می دهد. در اینجا، نسبت به درصد اشاره دارد

فواصل اطمینان با پایتون

                                                                   تصویر متعلق به نویسنده است

حال، اگر صد نمونه از این قبیل را برداریم و نسبت نمونه هر نمونه را رسم کنیم، یک توزیع نرمال از نسبت های نمونه به دست خواهیم آورد و میانگین توزیع، تقریبی ترین مقدار نسبت جامعه خواهد بود. و تخمین ما می تواند در هر نقطه از منحنی توزیع باشد. طبق قانون 3 سیگما، می دانیم که حدود 95 درصد از متغیرهای تصادفی در 2 std انحراف از میانگین توزیع قرار دارند. بنابراین، می‌توان نتیجه گرفت که این احتمال وجود دارد p^ در 2 انحراف std از است p 95 درصد است. یا همچنین می توانیم بگوییم که احتمال اینکه p در 2 انحراف std زیر و بالای p^ باشد نیز 95٪ است. این دو عبارت عملاً معادل هستند. این دو نقطه زیر و بالای p^ فواصل اطمینان ما هستند.

فواصل اطمینان با پایتون

                                                           تصویر متعلق به نویسنده است

اگر بتوانیم سیگما را به نحوی پیدا کنیم، می توانیم بازه مورد نیاز خود را محاسبه کنیم. اما سیگما در اینجا پارامتر جمعیت است و می دانیم که محاسبه آن اغلب تقریباً غیرممکن است، بنابراین به جای آن از آمار نمونه استفاده خواهیم کرد، یعنی خطای استاندارد. این به عنوان داده شده است

که در آن p^= نسبت نمونه، n=تعداد نمونه

SE =√(0.62. 0.38/100) = 0.05

بنابراین، 2xSE = 0.1

فاصله اطمینان برای داده های ما (0.62-0.1,0.62،0.1+0.52,0.72) یا (2،95) است. همانطور که ما XNUMXxSE را گرفته ایم، این به XNUMX٪ فاصله اطمینان ترجمه می شود.

حال سوال این است که اگر بخواهیم فاصله اطمینان 92 درصد ایجاد کنیم چه؟ در مثال قبلی، ما 2 را با SE ضرب کردیم تا یک بازه اطمینان 95٪ ایجاد کنیم، این 2 امتیاز z برای فاصله اطمینان 95٪ است (مقدار دقیق 1.96 است) و این مقدار را می توان از یک جدول z پیدا کرد. مقدار بحرانی z برای بازه اطمینان 92% 1.75 است. رجوع شود به این مقاله برای درک بهتر z-score و z-table.

فاصله با: (p^ + z*.SE , p^-z*.SE) داده می شود.

اگر به جای نسبت نمونه، میانگین نمونه داده شود، خطای استاندارد خواهد بود sigma/sqrt(n). اینجا سیگما انحراف std جمعیت است، زیرا اغلب نداریم، در عوض از انحراف std نمونه استفاده می کنیم. اما اغلب مشاهده می شود که این نوع تخمین در جایی که میانگین نتیجه داده می شود کمی جانبدارانه است. بنابراین در مواردی مانند این ترجیح داده می شود که از آماره t به جای آماره z استفاده شود.

فرمول کلی برای فاصله اطمینان با آماره z به دست آمده است

در اینجا، آمار به میانگین نمونه یا نسبت نمونه اشاره دارد. سیگماs انحراف معیار جمعیت هستند.

تفسیر فواصل اطمینان

بسیار مهم است که فواصل اطمینان را به درستی تفسیر کنید. مثال نظرسنجی قبلی را در نظر بگیرید که در آن فاصله اطمینان 95% خود را (0.52,0.62،95) محاسبه کردیم. معنی آن چیست؟ خوب، یک فاصله اطمینان 95٪ به این معنی است که اگر n نمونه از جامعه ترسیم کنیم، 95٪ مواقع فاصله مشتق شده شامل نسبت جمعیت واقعی خواهد بود. به یاد داشته باشید که فاصله اطمینان 95٪ به این معنی نیست که احتمال 90٪ وجود دارد که این فاصله دارای نسبت واقعی جمعیت باشد. به عنوان مثال، برای یک فاصله اطمینان 10 درصد، اگر 9 نمونه از یک جامعه ترسیم کنیم، 10 از XNUMX برابر فاصله مذکور حاوی پارامتر جمعیت واقعی خواهد بود. برای درک بهتر به تصویر زیر نگاه کنید.

تفسیر فاصله اطمینان

                                                            تصویر متعلق به نویسنده است

مفروضات فواصل اطمینان با استفاده از آماره Z

مفروضات خاصی وجود دارد که باید به دنبال آن باشیم تا بتوانیم یک فاصله اطمینان معتبر با استفاده از آماره z بسازیم.

  1. نمونه تصادفی: نمونه ها باید تصادفی باشند. روش های نمونه گیری مختلفی مانند نمونه گیری طبقه ای، نمونه گیری تصادفی ساده، نمونه گیری خوشه ای برای گرفتن نمونه های تصادفی وجود دارد.
  2. شرط عادی: داده ها باید این شرط np^>=10 و n.(1-p^)>=10 را داشته باشند. این اساساً به این معنی است که توزیع نمونه‌گیری ما از میانگین‌های نمونه باید نرمال باشد، نه در هر دو طرف.
  3. مستقل: نمونه ها باید مستقل باشند. تعداد نمونه ها باید کمتر یا مساوی 10 درصد کل جامعه باشد یا اگر نمونه برداری با جایگزینی انجام شود.

فواصل اطمینان با آماره T

اگر حجم نمونه نسبتاً کوچک باشد و انحراف معیار جامعه داده نشود یا نتوان آن را فرض کرد، چه؟ چگونه یک فاصله اطمینان ایجاد کنیم؟ خوب، اینجاست که آمار t وارد می شود. فرمول اصلی برای یافتن فاصله اطمینان در اینجا یکسان باقی می ماند و فقط z* با t* جایگزین می شود. فرمول کلی توسط

که در آن S = انحراف استاندارد نمونه، n = تعداد نمونه ها

فرض کنید مهمانی برگزار کرده اید و می خواهید میانگین مصرف آبجو توسط مهمانان خود را تخمین بزنید. بنابراین، شما یک نمونه تصادفی از 20 نفر به دست می آورید و مصرف آبجو را اندازه گیری می کنید. داده های نمونه متقارن با میانگین 0f 1200 میلی لیتر و انحراف std 120 میلی لیتر است. بنابراین، اکنون می خواهید یک فاصله اطمینان 95٪ ایجاد کنید.

بنابراین، ما انحراف std نمونه، تعداد نمونه ها و میانگین نمونه را داریم. تنها چیزی که نیاز داریم t* است. بنابراین، t* برای فاصله اطمینان 95٪ با درجه آزادی 19 (n-1 = 20-1) 2.093 است. بنابراین، فاصله مورد نیاز ما بعد از محاسبه (1256.16، 1143.83) با حاشیه خطای 56.16 است. رجوع شود به این ویدیویی برای دانستن نحوه خواندن جدول t.

مفروضات CI با استفاده از آماره T

مشابه آمار z در اینجا در مورد آماره t نیز شرایطی وجود دارد که باید در داده های داده شده به دنبال آنها باشیم.

  1. نمونه باید تصادفی باشد
  2. نمونه باید نرمال باشد. برای نرمال بودن حجم نمونه باید بزرگتر یا مساوی 30 باشد یا اگر مجموعه داده والد یعنی جامعه تقریباً نرمال باشد. یا اگر اندازه نمونه زیر 30 باشد، توزیع باید تقریباً متقارن باشد.
  3. مشاهدات فردی باید مستقل باشند. یعنی از قانون 10 درصد پیروی می کند یا نمونه برداری با جایگزینی انجام می شود.

ایجاد فاصله T برای داده های جفت شده

تاکنون فقط از داده های یک نمونه استفاده کرده ایم. اکنون خواهیم دید که چگونه می توانیم یک بازه t برای داده های جفت شده بسازیم. در داده های جفتی، ما دو مشاهده روی یک فرد انجام می دهیم. به عنوان مثال، مقایسه نمرات پیش آزمون و پس آزمون دانش آموزان یا داده های مربوط به تأثیر دارو و دارونما بر گروهی از افراد. در داده های زوجی، تفاوت بین دو مشاهدات را در ستون 3 یافتیم. طبق معمول برای درک این مفهوم نیز مثالی را مرور می کنیم.

س. معلمی سعی کرد تأثیر یک برنامه درسی جدید را بر نتیجه آزمون ارزیابی کند. در زیر نتایج مشاهدات آمده است.

فاصله T برای داده های جفت شده

                                                      تصویر متعلق به نویسنده است

از آنجایی که قصد داریم فواصل اختلاف میانگین را پیدا کنیم، فقط به آمار تفاوت ها نیاز داریم. ما از همان فرمولی که قبلا استفاده می کردیم استفاده می کنیم

آمار +- (مقدار بحرانی یا t-value) (انحراف استاندارد آمار)

xd = میانگین تفاوت، Sd = انحراف std نمونه، برای 95% CI با درجه آزادی 5 t* با 2.57 داده می شود. حاشیه خطا = 0.97 و فاصله اطمینان (4.18,6.13،XNUMX).

تفسیر: از برآوردهای بالا همانطور که می بینیم فاصله اطمینان حاوی مقادیر صفر یا منفی نیست. بنابراین می توان نتیجه گرفت که برنامه درسی جدید تأثیر مثبتی بر عملکرد آزمون دانش آموزان داشته است. اگر فقط ارزش های منفی داشت، می توان گفت که برنامه درسی تأثیر منفی داشت. یا اگر حاوی صفر بود، ممکن است این احتمال وجود داشته باشد که تفاوت صفر بوده و یا هیچ تأثیری از برنامه درسی بر نتایج آزمون نداشته باشد.

Z-value در مقابل T-value

در ابتدا سردرگمی زیادی در مورد زمان استفاده از چه چیزی وجود دارد. قاعده کلی زمانی است که حجم نمونه >= 30 باشد و انحراف معیار جامعه برای استفاده از آماره z شناخته شده باشد. در صورتی که حجم نمونه کمتر از 30 باشد از آمار t استفاده کنید. در زندگی واقعی، ما پارامترهای جمعیت نداریم، بنابراین بر اساس حجم نمونه، z یا t را پیش خواهیم برد.

با نمونه های کوچکتر (n<30) قضیه حد مرکزی اعمال نمی شود و از توزیع دیگری به نام توزیع t Student استفاده می شود. توزیع t مشابه توزیع نرمال است اما بسته به حجم نمونه اشکال متفاوتی دارد. به جای مقادیر z، از مقادیر t استفاده می شود که برای نمونه های کوچکتر بزرگتر هستند و حاشیه خطای بیشتری ایجاد می کنند. به عنوان یک نمونه کوچک، دقت کمتری خواهد داشت.

فواصل اطمینان با پایتون

پایتون کتابخانه وسیعی دارد که از انواع محاسبات آماری پشتیبانی می کند و زندگی ما را کمی آسان تر می کند. در این بخش، داده‌های مربوط به عادات خواب کودکان نوپا را بررسی خواهیم کرد. 20 شرکت کننده در این مشاهدات سالم، دارای رفتار طبیعی بودند و هیچ گونه اختلال خواب نداشتند. هدف ما تجزیه و تحلیل زمان خواب کودکان نوپا چرت و بدون چرت است.

مرجع: Akacem LD، Simpkin CT، Carskadon MA، Wright KP Jr، Jenni OG، Achermann P، و همکاران. (2015) زمان بندی ساعت شبانه روزی و خواب بین کودکان نوپا که چرت می زنند و غیر چرت می زنند متفاوت است. PLoS ONE 10 (4): e0125181. https://doi.org/10.1371/journal.pone.0125181

ما کتابخانه هایی را وارد خواهیم کرد که به آنها نیاز داریم

وارد کردن numpy به عنوان np وارد کردن پانداها به عنوان pd از scipy.stats import t pd.set_option('display.max_columns', 30) # set بنابراین می توانید تمام ستون های ریاضی واردات DataFrame را ببینید
df = pd.read_csv(nap_no_nap.csv) #reading data
df.head()
فواصل اطمینان با پایتون

دو فاصله 95 درصدی برای میانگین زمان خواب ایجاد کنید، یکی برای کودکان نوپا که چرت می زنند و دیگری برای کودکان نوپا که چرت نمی زنند. ابتدا، ستون "شب خواب" را برای کسانی که به یک متغیر جدید چرت می زنند، و کسانی که چرت نمی زنند را در یک متغیر جدید دیگر جدا می کنیم. زمان خواب در اینجا اعشاری شده است.

bedtime_nap = df['time bedtime'].loc[df['napning'] == 1] bedtime_no_nap = df['time bedtime'].loc[df['napning'] == 0]

چاپ (لن (زمان_خواب))

چاپ (لن (زمان_خواب_بدون_خواب))

خروجی: 15 n 5


اکنون، نمونه میانگین زمان خواب را برای nap و no_nap خواهیم یافت.

nap_mean_bedtime = bedtime_nap.mean() #20.304 no_nap_mean_bedtime = bedtime_no_nap.mean() #19.59

اکنون نمونه انحراف استاندارد X را پیدا خواهیم کردچرت زدن و Xبدون چرت 

nap_s_bedtime = np.std(Bedtime_nap,ddof=1) no_nap_s_bedtime = np.std(Bedtime_no_nap,ddof=1)

توجه: پارامتر ddof برای نمونه std dev روی 1 تنظیم شده است وگرنه به جمعیت std dev تبدیل می شود.

اکنون، نمونه خطای استاندارد X را پیدا خواهیم کردچرت زدن و Xبدون چرت 

nap_se_mean_bedtime = nap_s_bedtime/math.sqrt(len(bedtime_nap)) #0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime/math.sqrt(len(زمان_خواب_بدون_خواب)) #0.2270

تا اینجا خوب بود، حالا چون حجم نمونه کوچک است و انحراف معیار نسبت جمعیت نداریم، از مقدار t* استفاده خواهیم کرد. یک راه برای یافتن مقدار t* استفاده از آن است scipy.stats t.ppf عملکرد. آرگومان های t.ppf() q = درصد، df = درجه آزادی، scale = std dev، loc = میانگین هستند. از آنجایی که توزیع t برای یک فاصله اطمینان 95% متقارن است q 0.975 خواهد بود. به مراجعه این برای اطلاعات بیشتر در مورد t.ppf().

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

اکنون قطعات را اضافه می کنیم تا در نهایت فاصله اطمینان خود را بسازیم.

nap_ci_plus = nap_mean_bedtime + nap_t_star*nap_se_bedtime

nap_ci_minus = nap_mean_bedtime – nap_t_star*nap_se_bedtime

چاپ (nap_ci_minus,nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star*nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime – no_nap_t_star*nap_se_bedtime

چاپ (no_nap_ci_minus,no_nap_ci_plus)


خروجی: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

تفسیر: 

از نتایج بالا، ما 95٪ مطمئن هستیم که میانگین زمان خواب برای کودکان نوپا بین ساعت 19.98 تا 20.63 (بعد از ظهر) است در حالی که برای کودکان نوپا که چرت نمی زنند بین 18.96 تا 20.22 (بعد از ظهر) است. این نتایج مطابق انتظار ما است که اگر در طول روز چرت بزنید، شب ها دیر می خوابید.

یادداشت های پایانی

بنابراین، این همه در مورد فواصل اطمینان ساده با استفاده از مقادیر z و t بود. در واقع دانستن این مفهوم در مورد هر مطالعه آماری یک مفهوم مهم است. یک روش آماری استنباطی عالی برای تخمین پارامترهای جمعیت از داده های نمونه. فواصل اطمینان نیز با آزمون فرضیه مرتبط است که برای 95٪ CI، شما 5٪ فضا را برای ناهنجاری ها باقی می گذارید. اگر فرضیه صفر در بازه اطمینان قرار گیرد، مقدار p بزرگ خواهد بود و ما نمی توانیم صفر را رد کنیم. برعکس، اگر از آن فراتر رود، ما برای رد فرضیه‌های باطل و پذیرش آن، شواهد کافی خواهیم داشت.

امیدوارم مقاله مورد پسند شما واقع شده باشد و سال نو مبارک (:

رسانه نشان داده شده در این مقاله متعلق به Analytics Vidhya نیست و به صلاحدید نویسنده استفاده می شود.

منبع: https://www.analyticsvidhya.com/blog/2022/01/understanding- اعتماد-فاصله-با-python/

تمبر زمان:

بیشتر از تجزیه و تحلیل Vidhya