فهم فترات الثقة مع بايثون

عقدة المصدر: 1883080

تم نشر هذه المقالة كجزء من مدونة علوم البيانات.

جدول المحتويات

  1. المُقدّمة
  2. فترات الثقة مع إحصاء Z.
  3. تفسير فترات الثقة
  4. افتراضات CI باستخدام إحصاء z
  5. فترات الثقة مع إحصاء t
  6. افتراضات CI باستخدام إحصاء t
  7. عمل فاصل زمني مع البيانات المقترنة
  8. z-value مقابل t-value: متى تستخدم ماذا؟
  9. فترات الثقة مع بيثون
  10. نهاية الملاحظة

المُقدّمة

عندما نحل مشكلة إحصائية ، فإننا نشعر بالقلق إزاء تقدير المعلمات السكانية ولكن في كثير من الأحيان يكون من المستحيل حساب المعلمات السكانية. ما نقوم به بدلاً من ذلك هو أخذ عينات عشوائية من السكان وحساب إحصائيات العينة التي تتوقع تقريبية المعلمات السكانية. ولكن كيف لنا أن نعرف ما إذا كانت العينات تمثل تمثيلًا حقيقيًا للسكان أو إلى أي مدى تنحرف هذه العينات عن المعايير السكانية؟ هذا هو المكان الذي تظهر فيه فترات الثقة في الصورة. إذن ، ما هي هذه الفترات؟ فاصل الثقة هو نطاق من القيم التي تتراوح أعلى وأسفل إحصاءات العينة أو يمكننا أيضًا تعريفها على أنها احتمال أن تحتوي مجموعة من القيم حول إحصائية العينة على معلمة السكان الحقيقية.

فترات الثقة مع إحصاء Z.

قبل الخوض في عمق الموضوع ، دعونا نتعرف على بعض المصطلحات الإحصائية.

سكان: هي مجموعة كل الأفراد المتشابهين. على سبيل المثال ، عدد سكان المدينة وطلاب الكلية وما إلى ذلك.

عينة: هي مجموعة صغيرة من الأفراد المتشابهين من السكان. وبالمثل ، فإن العينة العشوائية هي عينة مأخوذة عشوائيًا من السكان.

المعلمات: متوسط ​​(مو) ، الانحرافات المعيارية (سيغما) ، نسبة (ع) المشتقة من السكان.

إحصائية: يعني (x بار) ، الانحراف القياسي (S) ، النسب (p ^) المعنية بالعينات.

درجة Z: هي المسافة بين أي نقطة بيانات خام على التوزيع الطبيعي من المتوسط ​​الذي تم تسويته بواسطة انحراف الأمراض المنقولة جنسياً. معطى بواسطة: س مو / سيغما

حسنًا ، نحن الآن على استعداد للتعمق في مفهوم فترات الثقة. لسبب ما ، أعتقد أنه من الأفضل بكثير فهم المفاهيم من خلال الأمثلة المترابطة بدلاً من التعريفات الرياضية الخام. لذلك دعونا نبدأ.

لنفترض أنك تعيش في مدينة يبلغ عدد سكانها 100,000 نسمة ، والانتخابات على الأبواب. بصفتك خبير استطلاع ، يجب أن تتوقع من سيفوز في الانتخابات إما من الحزب الأزرق أو الأصفر. لذلك ، ترى أنه يكاد يكون من المستحيل جمع المعلومات من جميع السكان بحيث تختار عشوائيًا 100 شخص. في نهاية الاستطلاع ، وجدت أن 62٪ من الناس سيصوتون لصالح اللون الأصفر. السؤال الآن هو هل يجب أن نستنتج أن اللون الأصفر سيفوز مع احتمال فوز 62٪ أو 62٪ من مجموع السكان سيصوتون للأصفر؟ حسنا، الجواب هو لا. لا نعرف على وجه اليقين إلى أي مدى يكون تقديرنا من المعلمة الحقيقية ، إذا أخذنا عينة أخرى ، فقد تكون النتيجة 58٪ أو 65٪. لذا ، ما سنفعله بدلاً من ذلك هو إيجاد مجموعة من القيم حول إحصائية العينة التي من المرجح أن تلتقط النسبة الحقيقية للسكان. هنا ، النسبة تشير إلى النسبة المئوية

فترات الثقة مع بايثون

                                                                   الصورة تنتمي إلى المؤلف

الآن ، إذا أخذنا مائة عينة من هذا القبيل ورسمنا نسبة العينة لكل عينة ، فسنحصل على توزيع طبيعي لنسب أخذ العينات وسيكون متوسط ​​التوزيع هو القيمة الأكثر تقريبية لنسبة السكان. ويمكن أن يكمن تقديرنا في أي مكان على منحنى التوزيع. وفقًا لقاعدة 3-sigma ، نعلم أن حوالي 95 ٪ من المتغيرات العشوائية تقع ضمن انحرافين عن متوسط ​​التوزيع. لذا ، يمكننا أن نستنتج أن احتمال ذلك p^ يقع في نطاق 2 الانحرافات القياسية من p 95٪. أو يمكننا أيضًا أن نذكر أن احتمال أن يكون p ضمن انحرافين قياسيين أسفل p ^ وأعلى هو 2٪ أيضًا. هاتان العبارتان متكافئتان بشكل فعال. هاتان النقطتان أدناه وفوق p ^ هما فترات ثقتنا.

فترات الثقة مع بايثون

                                                           الصورة تنتمي إلى المؤلف

إذا تمكنا بطريقة ما من إيجاد سيجما يمكننا حساب الفاصل الزمني المطلوب. لكن سيغما هنا هي معلمة السكان ونعلم أنه غالبًا ما يكون من المستحيل حسابها ، لذا بدلاً من ذلك سنستخدم عينة من الإحصائيات ، مثل الخطأ القياسي. يتم إعطاء هذا على النحو

حيث p ^ = نسبة العينة ، n = عدد العينات

سي =√ (0.62. 0.38 / 100) = 0.05

لذلك ، 2xSE = 0.1

فترة الثقة لبياناتنا هي (0.62-0.1,0.62،0.1 + 0.52,0.72) أو (2،95). نظرًا لأننا أخذنا XNUMXxSE ، فإن هذا يترجم إلى فاصل ثقة بنسبة XNUMX ٪.

الآن ، السؤال هو ماذا لو أردنا إنشاء فاصل ثقة بنسبة 92٪؟ في المثال السابق ، قمنا بضرب 2 مع SE لإنشاء فاصل ثقة 95٪ ، وهذه 2 هي الدرجة z لفاصل ثقة 95٪ (القيمة الدقيقة 1.96) ويمكن العثور على هذه القيمة من جدول z. القيمة الحرجة لـ z لفاصل الثقة 92٪ هي 1.75. تشير إلى مقالة لفهم أفضل للجدول z والجدول z.

الفاصل الزمني مُعطى بواسطة: (p ^ + z * .SE، p ^ -z * .SE).

إذا تم إعطاء متوسط ​​العينة بدلاً من نسبة العينة ، فسيكون الخطأ القياسي سيغما / الجذر التربيعي (ن). هنا سيجما هو الانحراف القياسي للسكان حيث لا نستخدم نموذج الانحراف القياسي بدلاً من ذلك. ولكن غالبًا ما يُلاحظ أن هذا النوع من التقدير حيث يُعطى المتوسط ​​للنتيجة يميل إلى أن يكون متحيزًا بعض الشيء. لذلك في مثل هذه الحالات ، يُفضل استخدام إحصاء t بدلاً من إحصائيات z.

يتم إعطاء الصيغة العامة لفاصل الثقة مع z-Statistics بواسطة

هنا ، يشير الإحصاء إلى متوسط ​​العينة أو نسبة العينة. سيغماs هي الانحراف المعياري للسكان.

تفسير فترات الثقة

من المهم حقًا تفسير فترات الثقة بشكل صحيح. ضع في اعتبارك مثال استطلاعات الرأي السابق حيث حسبنا فاصل الثقة 95٪ ليكون (0.52,0.62،95). ماذا يعني ذالك؟ حسنًا ، تعني فاصل الثقة 95٪ أنه إذا قمنا بسحب n عينات من السكان ، فإن 95٪ من الوقت سيحتوي الفاصل الزمني المشتق على نسبة السكان الحقيقية. تذكر أن فاصل الثقة 95٪ لا يعني أن هناك احتمال 90٪ أن الفاصل الزمني يحتوي على نسبة السكان الحقيقية. على سبيل المثال ، بالنسبة لفاصل الثقة بنسبة 10٪ إذا سحبنا 9 عينات من مجموعة سكانية ، فإن 10 من XNUMX أضعاف الفاصل الزمني المذكور سيحتوي على معلمة سكانية حقيقية. انظر إلى الصورة أدناه لفهم أفضل.

تفسير فترة الثقة

                                                            الصورة تنتمي إلى المؤلف

افتراضات فترات الثقة باستخدام إحصاء Z.

هناك افتراضات معينة نحتاج إلى البحث عنها لإنشاء فاصل ثقة صالح باستخدام إحصاء z.

  1. عينة عشوائية: يجب أن تكون العينات عشوائية. هناك طرق مختلفة لأخذ العينات مثل أخذ العينات الطبقية ، أخذ العينات العشوائية البسيطة ، أخذ العينات العنقودية للحصول على عينات عشوائية.
  2. الحالة العادية: يجب أن تحقق البيانات هذا الشرط np ^> = 10 and n. (1-p ^)> = 10. هذا يعني بشكل أساسي أن توزيع العينات لدينا من وسائل العينة يجب أن يكون طبيعيًا ، وليس منحرفًا على أي جانب.
  3. مستقل: يجب أن تكون العينات مستقلة. يجب أن يكون عدد العينات أقل من أو يساوي 10٪ من إجمالي السكان أو إذا تم أخذ العينات بالاستبدال.

فترات الثقة مع إحصاء T.

ماذا لو كان حجم العينة صغيرًا نسبيًا ولم يتم تحديد الانحراف المعياري للمجتمع أو لا يمكن افتراضه؟ كيف نبني فترة الثقة؟ حسنًا ، هذا هو المكان الذي يأتي فيه t-statistic. تظل الصيغة الأساسية لإيجاد فاصل الثقة هنا كما هي مع استبدال z * فقط بـ t *. يتم إعطاء الصيغة العامة بواسطة

حيث S = عينة الانحراف المعياري ، n = عدد العينات

لنفترض أنك استضفت حفلة وتريد تقدير متوسط ​​استهلاك ضيوفك من البيرة. لذلك ، تحصل على عينة عشوائية من 20 فردًا وقياس استهلاك البيرة. بيانات العينة متناظرة بمتوسط ​​0f 1200 مل وانحراف قياسي 120 مل. لذا ، أنت الآن ترغب في إنشاء فاصل ثقة بنسبة 95٪.

لذلك ، لدينا عينة الانحراف القياسي وعدد العينات ومتوسط ​​العينة. كل ما نحتاجه هو t *. لذا ، فإن t * لفاصل الثقة 95٪ بدرجة حرية 19 (n-1 = 20-1) هي 2.093. لذا ، فإن الفاصل الزمني المطلوب هو بعد الحساب (1256.16 ، 1143.83) بهامش خطأ 56.16. تشير إلى فيديو لمعرفة كيفية قراءة الجدول t.

افتراضات CI باستخدام إحصاء T.

على غرار حالة z-statistic هنا في حالة إحصاء t ، هناك أيضًا بعض الشروط التي نحتاج إلى البحث عنها في بيانات معينة.

  1. يجب أن تكون العينة عشوائية
  2. يجب أن تكون العينة طبيعية. لكي يكون حجم العينة طبيعيًا ، يجب أن يكون حجم العينة أكبر أو يساوي 30 أو إذا كانت مجموعة البيانات الأصلية ، أي عدد السكان طبيعي تقريبًا. أو إذا كان حجم العينة أقل من 30 ، فيجب أن يكون التوزيع متماثلًا تقريبًا.
  3. يجب أن تكون الملاحظات الفردية مستقلة. هذا يعني أنه يتبع قاعدة 10٪ أو أن أخذ العينات يتم مع الاستبدال.

عمل فاصل زمني للبيانات المقترنة

حتى الآن ، استخدمنا بيانات عينة واحدة فقط. سنرى الآن كيف يمكننا إنشاء فترة t للبيانات المقترنة. في البيانات المزدوجة ، نجري ملاحظتين على نفس الفرد. على سبيل المثال ، مقارنة علامات الاختبار القبلي والبعدي للطلاب أو البيانات المتعلقة بتأثير دواء وهمي على مجموعة من الأشخاص. في البيانات المزدوجة ، وجدنا الفرق بين الملاحظتين في العمود الثالث. كالعادة ، سنستعرض مثالاً لفهم هذا المفهوم أيضًا ،

س: حاول أحد المدرسين تقييم تأثير المنهج الجديد على نتيجة الاختبار. فيما يلي نتائج الملاحظات.

الفاصل الزمني T للبيانات المقترنة

                                                      الصورة تنتمي إلى المؤلف

نظرًا لأننا نعتزم إيجاد فترات زمنية للفرق المتوسط ​​، فنحن بحاجة فقط إلى إحصائيات الاختلافات. سنستخدم نفس الصيغة التي استخدمناها من قبل

الإحصاء + - (القيمة الحرجة أو القيمة t) (الانحراف المعياري للإحصاء)

xd = متوسط ​​الاختلاف ، S.d = الانحراف القياسي للعينة ، بالنسبة لـ 95٪ CI بدرجة حرية 5 t * تعطى بمقدار 2.57. هامش الخطأ = 0.97 وفاصل الثقة (4.18,6.13،XNUMX).

ترجمة: من التقديرات السابقة كما نلاحظ أن فاصل الثقة لا يحتوي على قيم صفرية أو سالبة. لذلك ، يمكننا أن نستنتج أن المنهج الجديد كان له تأثير إيجابي على أداء الاختبار للطلاب. إذا كانت تحتوي على قيم سلبية فقط ، فيمكننا القول إن المنهج كان له تأثير سلبي. أو إذا كانت تحتوي على صفر ، فقد يكون هناك احتمال أن يكون الاختلاف صفريًا أو لا يوجد تأثير للمنهج على نتائج الاختبار.

قيمة Z مقابل قيمة T.

هناك الكثير من الالتباس في البداية حول وقت استخدام ماذا. القاعدة الأساسية هي عندما يكون حجم العينة> = 30 ومن المعروف أن الانحراف المعياري للسكان يستخدم إحصائيات z. في حال كان حجم العينة <30 ، استخدم إحصائيات t. في الحياة الواقعية ، ليس لدينا معلمات سكانية ، لذا سنستخدم z أو t بناءً على حجم العينة.

مع عينات أصغر (n <30) لا تنطبق نظرية الحد المركزي ، ويتم استخدام توزيع آخر يسمى توزيع t للطالب. يشبه توزيع t التوزيع الطبيعي ولكنه يتخذ أشكالًا مختلفة اعتمادًا على حجم العينة. بدلاً من قيم z ، يتم استخدام قيم t التي تكون أكبر للعينات الأصغر ، مما ينتج عنه هامش خطأ أكبر. نظرًا لأن حجم العينة الصغير سيكون أقل دقة.

فترات الثقة مع بايثون

تمتلك Python مكتبة ضخمة تدعم جميع أنواع الحسابات الإحصائية مما يجعل حياتنا أسهل قليلاً. في هذا القسم ، سوف نلقي نظرة على البيانات المتعلقة بعادات نوم الأطفال الصغار. كان المشاركون العشرون في هذه الملاحظات يتمتعون بصحة جيدة ، وسلوكهم الطبيعي ، وليس لديهم أي اضطراب في النوم. هدفنا هو تحليل وقت النوم للأطفال الصغار وعدم القيلولة.

المرجع: Akacem LD ، Simpkin CT ، Carskadon MA ، Wright KP Jr ، Jenni OG ، Achermann P ، et al. (2015) يختلف توقيت الساعة اليومية والنوم بين القيلولة والأطفال الصغار غير القيلولة. بلوس ون 10 (4): e0125181. https://doi.org/10.1371/journal.pone.0125181

سنقوم باستيراد المكتبات التي سنحتاجها

استيراد numpy كـ np استيراد pandas كـ pd من scipy.stats استيراد t pd.set_option ('display.max_columns' ، 30) مجموعة # حتى تتمكن من رؤية جميع أعمدة DataFrame استيراد الرياضيات
df = pd.read_csv (nap_no_nap.csv) # قراءة البيانات
df.head ()
فترات الثقة مع بايثون

أنشئ فواصل ثقة 95٪ لمتوسط ​​وقت النوم ، أحدهما للأطفال الصغار الذين يأخذون قيلولة والآخر للأطفال الصغار الذين لا يأخذون قيلولة. أولاً ، سنعزل العمود "وقت النوم الليلي" لمن يغفو في متغير جديد ، وأولئك الذين لم يأخذوا قيلولة في متغير جديد آخر. وقت النوم هنا عشري.

bedtime_nap = df ['night bedtime']. loc [df ['napping'] == 1] bedtime_no_nap = df ['night bedtime']. loc [df ['napping'] == 0]

print (len (bedtime_nap))

print (len (bedtime_no_nap))

الإخراج: 15 ن 5


الآن ، سوف نجد العينة التي تعني متوسط ​​وقت النوم للقيلولة و no_nap.

nap_mean_bedtime = bedtime_nap.mean () # 20.304 no_nap_mean_bedtime = bedtime_no_nap.mean () # 19.59

الآن ، سنجد نموذج الانحراف المعياري لـ Xقيلولة و Xلا قيلولة 

nap_s_bedtime = np.std (bedtime_nap، ddof = 1) no_nap_s_bedtime = np.std (bedtime_no_nap، ddof = 1)

ملاحظة: تم تعيين المعامل ddof على 1 لعينة dev std وإلا فسيصبح السكان std dev.

الآن ، سوف نجد نموذج الخطأ المعياري لـ Xقيلولة و Xلا قيلولة 

nap_se_mean_bedtime = nap_s_bedtime / math.sqrt (len (bedtime_nap)) # 0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime / math.sqrt (len (bedtime_no_nap)) # 0.2270

جيد حتى الآن ، نظرًا لأن حجم العينة صغير وليس لدينا انحراف معياري لنسبة السكان ، فسنستخدم قيمة t *. طريقة واحدة للعثور على قيمة t * هي باستخدام scipy.stats t.ppf وظيفة. حجج t.ppf () هي q = النسبة المئوية ، df = درجة الحرية ، المقياس = التطوير القياسي ، loc = الوسط. نظرًا لأن توزيع t متماثل بالنسبة لفاصل ثقة 95٪ ، فسيكون q 0.975. الرجوع إلى لمزيد من المعلومات حول t.ppf ().

nap_t_star = t.ppf (0.975، df = 14) # 2.14 no_nap_t_star = t.ppf (0.975، df = 5) # 2.57

الآن ، سنضيف القطع لبناء فاصل الثقة الخاص بنا في النهاية.

nap_ci_plus = nap_mean_bedtime + nap_t_star * nap_se_bedtime

nap_ci_minus = nap_mean_bedtime - nap_t_star * nap_se_bedtime

طباعة (nap_ci_minus، nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star * nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime - no_nap_t_star * nap_se_bedtime

طباعة (no_nap_ci_minus، no_nap_ci_plus)


الإخراج: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

تفسير: 

من النتائج المذكورة أعلاه ، نستنتج أننا واثقون بنسبة 95٪ من أن متوسط ​​وقت النوم للأطفال الصغار يتراوح بين 19.98 - 20.63 (مساءً) بينما بالنسبة للأطفال الصغار الذين لا يأخذون قيلولة ، فهو يتراوح بين 18.96 - 20.22 (مساءً). هذه النتائج وفقًا لتوقعاتنا أنه إذا كنت تأخذ قيلولة أثناء النهار ، فسوف تنام في وقت متأخر من الليل.

ملاحظات ختامية

لذلك ، كان هذا كله يتعلق بفواصل الثقة البسيطة باستخدام قيمتي z و t. إنه بالفعل مفهوم مهم يجب معرفته في حالة أي دراسة إحصائية. طريقة إحصائية استنتاجية رائعة لتقدير المعلمات السكانية من بيانات العينة. ترتبط فترات الثقة أيضًا باختبار الفرضيات التي تترك مساحة قدرها 95٪ للحالات الشاذة بالنسبة إلى 5٪ من مجال الثقة. إذا كانت الفرضية الصفرية تقع ضمن فاصل الثقة ، فستكون القيمة p كبيرة ولن نتمكن من رفضها. على العكس من ذلك ، إذا تجاوز ذلك ، فسيكون لدينا دليل كافٍ لرفض فرضيات لاغية وقبول فرضيات بديلة.

اتمنى ان اعجبك المقال وسنة جديدة سعيدة (:

الوسائط الموضحة في هذه المقالة ليست مملوكة لشركة Analytics Vidhya ويتم استخدامها وفقًا لتقدير المؤلف.

المصدر: https://www.analyticsvidhya.com/blog/2022/01/understanding-confidence-intervals-with-python/

الطابع الزمني:

اكثر من تحليلات Vidhya