पायथन के साथ कॉन्फिडेंस इंटरवल को समझना

स्रोत नोड: 1883080

इस लेख के एक भाग के रूप में प्रकाशित किया गया था डेटा साइंस ब्लॉगथॉन.

विषय - सूची

  1. परिचय
  2. Z-सांख्यिकी के साथ विश्वास अंतराल
  3. विश्वास अंतराल की व्याख्या करना
  4. जेड-सांख्यिकी का उपयोग कर सीआई के लिए धारणाएं
  5. टी-सांख्यिकी के साथ कॉन्फिडेंस इंटरवल
  6. टी-सांख्यिकी का उपयोग कर सीआई के लिए अनुमान
  7. युग्मित डेटा के साथ टी-अंतराल बनाना
  8. जेड-वैल्यू बनाम टी-वैल्यू: कब उपयोग करें?
  9. अजगर के साथ विश्वास अंतराल
  10. अंत-नोट

परिचय

जब भी हम एक सांख्यिकीय समस्या को हल करते हैं तो हम जनसंख्या मानकों के अनुमान के बारे में चिंतित होते हैं लेकिन अक्सर जनसंख्या मानकों की गणना करना असंभव होता है। इसके बजाय हम जो करते हैं वह जनसंख्या से यादृच्छिक नमूने लेते हैं और अनुमानित जनसंख्या मानकों की अपेक्षा नमूना आंकड़ों की गणना करते हैं। लेकिन हमें कैसे पता चलेगा कि नमूने जनसंख्या के सच्चे प्रतिनिधि हैं या ये नमूना आंकड़े जनसंख्या मानकों से कितना विचलित हैं? यह वह जगह है जहाँ आत्मविश्वास अंतराल तस्वीर में आता है। तो, ये अंतराल क्या हैं? विश्वास अंतराल नमूना आँकड़ों के ऊपर और नीचे मूल्यों की एक श्रेणी है या हम इसे इस संभावना के रूप में भी परिभाषित कर सकते हैं कि नमूना आँकड़ों के आसपास मूल्यों की एक श्रेणी में सही जनसंख्या पैरामीटर शामिल है।

Z-सांख्यिकी के साथ विश्वास अंतराल

इस विषय की गहराई में जाने से पहले आइए कुछ सांख्यिकीय शब्दावली से परिचित हों।

आबादी: यह सभी समान व्यक्तियों का समुच्चय है। उदाहरण के लिए एक शहर की जनसंख्या, एक कॉलेज के छात्र, आदि।

नमूना: यह जनसंख्या से लिए गए समान व्यक्तियों का एक छोटा समूह है। इसी तरह, एक यादृच्छिक नमूना जनसंख्या से यादृच्छिक रूप से लिया गया नमूना है।

पैरामीटर: माध्य (एमयू), मानक विचलन (सिग्मा), जनसंख्या से प्राप्त अनुपात (पी)।

आँकड़ा: माध्य (x बार), एसटीडी विचलन (एस), अनुपात (पी ^) नमूनों से संबंधित।

जेड स्कोर: यह एसटीडी विचलन द्वारा सामान्यीकृत माध्य से सामान्य वितरण पर किसी भी अपरिष्कृत डेटा बिंदु की दूरी है। के द्वारा दिया गया: एक्स-म्यू/सिग्मा

अभी हम कॉन्फिडेंस इंटरवल की अवधारणा की गहराई में जाने के लिए तैयार हैं। किसी कारण से, मेरा मानना ​​​​है कि कच्ची गणितीय परिभाषाओं के बजाय संबंधित उदाहरणों के माध्यम से अवधारणाओं को समझना बेहतर है। तो चलो शुरू करते है।

मान लीजिए, आप 100,000 की आबादी वाले शहर में रहते हैं और चुनाव नजदीक है। एक पोलस्टर के रूप में, आपको भविष्यवाणी करनी चाहिए कि चुनाव कौन जीतने वाला है या तो ब्लू पार्टी या येलो। तो, आप देखते हैं कि पूरी आबादी से जानकारी एकत्र करना लगभग असंभव है, इसलिए आप बेतरतीब ढंग से 100 लोगों को चुनते हैं। सर्वेक्षण के अंत में, आपने पाया कि 62% लोग पीले रंग के लिए मतदान करने जा रहे हैं। अब सवाल यह है कि क्या हमें यह निष्कर्ष निकालना चाहिए कि पीले रंग की जीत की संभावना 62% है या पूरी आबादी का 62% पीले रंग के लिए मतदान करेगा? खैर, जवाब है नहीं। हम निश्चित रूप से नहीं जानते कि हमारा अनुमान सही पैरामीटर से कितना दूर है, अगर हम एक और नमूना लेते हैं तो परिणाम 58% या 65% हो सकता है। इसलिए, इसके बजाय हम अपने नमूना आँकड़ों के आस-पास मूल्यों की एक श्रृंखला खोजने के लिए क्या करेंगे जो कि वास्तविक जनसंख्या अनुपात को सबसे अधिक संभावना पर कब्जा कर लेगा। यहाँ, अनुपात के प्रतिशत को दर्शाता है

पायथन के साथ विश्वास अंतराल

                                                                   छवि लेखक की है

अब, यदि हम ऐसे सौ नमूने लेते हैं और प्रत्येक नमूने के नमूना अनुपात को प्लॉट करते हैं तो हमें नमूना अनुपात का सामान्य वितरण मिलेगा और वितरण का मतलब जनसंख्या अनुपात का सबसे अनुमानित मूल्य होगा। और हमारा अनुमान वितरण वक्र पर कहीं भी झूठ बोल सकता है। 3-सिग्मा नियम के अनुसार, हम जानते हैं कि लगभग 95% यादृच्छिक चर वितरण के माध्य से 2 एसटीडी विचलन के भीतर होते हैं। तो, हम यह निष्कर्ष निकाल सकते हैं कि संभावना है कि p^ के 2 एसटीडी विचलन के भीतर है p 95% है। या हम यह भी बता सकते हैं कि पी के नीचे और ऊपर 2 एसटी विचलन के भीतर पी की संभावना भी 95% है। ये दोनों कथन प्रभावी रूप से समतुल्य हैं। p^ के नीचे और ऊपर के ये दो बिंदु हमारे आत्मविश्वास अंतराल हैं।

पायथन के साथ विश्वास अंतराल

                                                           छवि लेखक की है

अगर हम किसी तरह सिग्मा पा सकते हैं तो हम अपने आवश्यक अंतराल की गणना कर सकते हैं। लेकिन यहां सिग्मा जनसंख्या पैरामीटर है और हम जानते हैं कि इसकी गणना करना अक्सर असंभव होता है, इसलिए इसके बजाय हम नमूना आंकड़ों यानी मानक त्रुटि का उपयोग करेंगे। यह इस प्रकार दिया गया है

जहाँ p^= नमूना अनुपात, n=नमूनों की संख्या

एसई =(0.62 . 0.38/100) = 0.05

इसलिए, 2xSE = 0.1

हमारे डेटा के लिए कॉन्फिडेंस इंटरवल (0.62-0.1,0.62+0.1) या (0.52,0.72) है। जैसा कि हमने 2xSE लिया है, यह 95% कॉन्फिडेंस इंटरवल का अनुवाद करता है।

अब सवाल यह है कि अगर हम 92% कॉन्फिडेंस इंटरवल बनाना चाहते हैं तो क्या होगा? पिछले उदाहरण में, हमने 2% कॉन्फिडेंस इंटरवल बनाने के लिए SE के साथ 95 को गुणा किया, यह 2 95% कॉन्फिडेंस इंटरवल (सटीक मान 1.96) के लिए z-स्कोर है और यह मान z- टेबल से पाया जा सकता है। 92% विश्वास अंतराल के लिए z का क्रांतिक मान 1.75 है। को देखें इसका जेड-स्कोर और जेड-टेबल की बेहतर समझ के लिए लेख।

अंतराल किसके द्वारा दिया जाता है: (p^ + z*.SE , p^-z*.SE)।

यदि नमूना अनुपात के बजाय नमूना माध्य दिया जाता है तो मानक त्रुटि होगी सिग्मा/वर्ग (एन)। यहाँ सिग्मा जनसंख्या एसटीडी विचलन है क्योंकि हमारे पास अक्सर इसके बजाय नमूना एसटीडी विचलन का उपयोग नहीं होता है। लेकिन अक्सर यह देखा गया है कि इस तरह का अनुमान जहां माध्य दिया जाता है, परिणाम थोड़ा पक्षपाती होता है। तो इस तरह के मामलों में, जेड-सांख्यिकी के बजाय टी-सांख्यिकी का उपयोग करना पसंद किया जाता है।

z-सांख्यिकी के साथ एक विश्वास अंतराल के लिए सामान्य सूत्र द्वारा दिया गया है

यहाँ, आँकड़ा या तो नमूना माध्य या नमूना अनुपात को संदर्भित करता है। सिग्माs जनसंख्या मानक विचलन हैं।

विश्वास अंतराल की व्याख्या करना

आत्मविश्वास के अंतराल की सही व्याख्या करना वास्तव में महत्वपूर्ण है। पिछले पोलस्टर उदाहरण पर विचार करें जहां हमने अपने 95% विश्वास अंतराल (0.52,0.62) की गणना की। इसका क्या मतलब है? ठीक है, 95% विश्वास अंतराल का अर्थ है कि यदि हम जनसंख्या से n नमूने लेते हैं तो व्युत्पन्न अंतराल के 95% समय में वास्तविक जनसंख्या अनुपात होगा। याद रखें कि 95% विश्वास अंतराल का मतलब यह नहीं है कि 95% संभावना है कि अंतराल में वास्तविक जनसंख्या अनुपात है। उदाहरण के लिए, 90% विश्वास अंतराल के लिए यदि हम जनसंख्या से 10 नमूने लेते हैं तो उक्त अंतराल के 9 गुणा में से 10 में सही जनसंख्या पैरामीटर होगा। बेहतर समझ के लिए नीचे दी गई तस्वीर को देखें।

विश्वास अंतराल की व्याख्या करना

                                                            छवि लेखक की है

Z-सांख्यिकी का उपयोग करके विश्वास अंतराल के लिए अनुमान

z-सांख्यिकी का उपयोग करके एक मान्य विश्वास अंतराल बनाने के लिए हमें कुछ निश्चित मान्यताओं की तलाश करनी होगी।

  1. यादृच्छिक नमूना: नमूनों को यादृच्छिक होना चाहिए। यादृच्छिक नमूने प्राप्त करने के लिए विभिन्न नमूनाकरण विधियां हैं जैसे स्तरीकृत नमूनाकरण, सरल यादृच्छिक नमूनाकरण, क्लस्टर नमूनाकरण।
  2. सामान्य स्थिति: डेटा को इस शर्त को पूरा करना चाहिए np^>=10 और n.(1-p^)>=10. इसका अनिवार्य रूप से मतलब है कि नमूना साधनों का हमारा नमूना वितरण सामान्य होना चाहिए, न कि किसी भी तरफ तिरछा।
  3. स्वतंत्र: नमूनों को स्वतंत्र होने की आवश्यकता है। नमूनों की संख्या कुल जनसंख्या के 10% से कम या उसके बराबर होनी चाहिए या यदि नमूना प्रतिस्थापन के साथ किया जाता है।

टी-सांख्यिकी के साथ विश्वास अंतराल

क्या होगा यदि नमूना आकार अपेक्षाकृत छोटा है और जनसंख्या मानक विचलन नहीं दिया गया है या नहीं माना जा सकता है? हम एक विश्वास अंतराल कैसे बनाते हैं? ठीक है, यही वह जगह है जहां टी-सांख्यिकी आती है। यहां आत्मविश्वास अंतराल खोजने का मूल सूत्र वही रहता है जिसमें केवल z* को t* द्वारा प्रतिस्थापित किया जाता है। सामान्य सूत्र द्वारा दिया गया है

जहाँ S = नमूना मानक विचलन, n = नमूनों की संख्या

मान लीजिए, आपने एक पार्टी की मेजबानी की और आप अपने मेहमानों द्वारा बीयर की औसत खपत का अनुमान लगाना चाहते हैं। तो, आप 20 व्यक्तियों का एक यादृच्छिक नमूना प्राप्त करते हैं और बीयर की खपत को मापते हैं। नमूना डेटा सममित है जिसका औसत 0f 1200 मिली और एसटीडी विचलन 120 मिली है। तो, अब आप 95% विश्वास अंतराल बनाना चाहते हैं।

तो, हमारे पास नमूना एसटीडी विचलन, नमूनों की संख्या और नमूना माध्य है। हमें केवल t* की आवश्यकता है। तो, t* 95% विश्वास अंतराल के लिए 19 (n-1 = 20-1) की स्वतंत्रता की डिग्री के साथ 2.093 है। तो, 1256.16 की त्रुटि के मार्जिन के साथ गणना (1143.83, 56.16) के बाद हमारा आवश्यक अंतराल है। को देखें इसका टी-टेबल को पढ़ने का तरीका जानने के लिए वीडियो।

टी-सांख्यिकी का उपयोग कर सीआई के लिए अनुमान

z-सांख्यिकी के मामले के समान यहाँ t-सांख्यिकी के मामले में भी कुछ शर्तें हैं जिन्हें हमें दिए गए डेटा में देखने की आवश्यकता है।

  1. नमूना यादृच्छिक होना चाहिए
  2. नमूना सामान्य होना चाहिए। सामान्य होने के लिए नमूना आकार 30 से अधिक या उसके बराबर होना चाहिए या यदि मूल डेटासेट यानी जनसंख्या लगभग सामान्य है। या यदि नमूना आकार 30 से कम है तो वितरण मोटे तौर पर सममित होना चाहिए।
  3. व्यक्तिगत टिप्पणियों को स्वतंत्र होने की आवश्यकता है। इसका मतलब है कि यह 10% नियम का पालन करता है या प्रतिस्थापन के साथ नमूनाकरण किया जाता है।

युग्मित डेटा के लिए टी-अंतराल बनाना

अब तक हमने केवल एक-नमूना डेटा का उपयोग किया है। अब हम देखेंगे कि हम युग्मित डेटा के लिए टी-अंतराल कैसे बना सकते हैं। युग्मित आँकड़ों में हम एक ही व्यक्ति पर दो प्रेक्षण करते हैं। उदाहरण के लिए, छात्रों के पूर्व-परीक्षण और परीक्षण के बाद के अंकों की तुलना करना या व्यक्तियों के समूह पर किसी दवा और प्लेसीबो के प्रभाव पर डेटा की तुलना करना। युग्मित डेटा में, हमने तीसरे कॉलम में दो टिप्पणियों के बीच का अंतर पाया। हमेशा की तरह, हम इस अवधारणा को भी समझने के लिए एक उदाहरण से गुजरेंगे,

Q. एक शिक्षक ने परीक्षा परिणाम पर नए पाठ्यक्रम के प्रभाव का मूल्यांकन करने का प्रयास किया। नीचे प्रेक्षणों के परिणाम दिए गए हैं।

युग्मित डेटा के लिए टी अंतराल

                                                      छवि लेखक की है

जैसा कि हम माध्य अंतर के लिए अंतराल खोजने का इरादा रखते हैं, हमें अंतर के लिए केवल आंकड़ों की आवश्यकता होती है। हम उसी फॉर्मूले का इस्तेमाल करेंगे जो हमने पहले इस्तेमाल किया था

आँकड़ा + - (महत्वपूर्ण मान या टी-मान) (सांख्यिकी का मानक विचलन)

xd = अंतर का माध्य, Sd = नमूना एसटीडी विचलन, स्वतंत्रता की डिग्री के साथ 95% सीआई के लिए 5 t* 2.57 द्वारा दिया जाता है। त्रुटि का अंतर = 0.97 और विश्वास अंतराल (4.18,6.13)।

व्याख्या: उपरोक्त अनुमानों से जैसा कि हम देख सकते हैं कि विश्वास अंतराल में शून्य या नकारात्मक मान नहीं होते हैं। इसलिए, हम यह निष्कर्ष निकाल सकते हैं कि नए पाठ्यक्रम का छात्रों के परीक्षण प्रदर्शन पर सकारात्मक प्रभाव पड़ा है। यदि इसमें केवल नकारात्मक मूल्य थे तो हम कह सकते हैं कि पाठ्यक्रम का नकारात्मक प्रभाव पड़ा। या यदि इसमें शून्य होता है तो इस बात की संभावना हो सकती है कि अंतर शून्य था या परीक्षा परिणामों पर पाठ्यक्रम का कोई प्रभाव नहीं था।

जेड-वैल्यू बनाम टी-वैल्यू

कब क्या इस्तेमाल करें, इसको लेकर शुरुआत में काफी कंफ्यूजन रहता है। अंगूठे का नियम तब होता है जब नमूना आकार> = 30 होता है और जनसंख्या मानक विचलन z-सांख्यिकी का उपयोग करने के लिए जाना जाता है। यदि नमूना आकार <30 है तो टी-सांख्यिकी का उपयोग करें। वास्तविक जीवन में, हमारे पास जनसंख्या पैरामीटर नहीं हैं इसलिए हम नमूना आकार के आधार पर z या t के साथ जाएंगे।

छोटे नमूनों के साथ (n<30) केंद्रीय LImit प्रमेय लागू नहीं होता है, और छात्र का t-वितरण नामक एक अन्य वितरण का उपयोग किया जाता है। टी-वितरण सामान्य वितरण के समान है लेकिन नमूना आकार के आधार पर अलग-अलग आकार लेता है। z मानों के बजाय, t मानों का उपयोग किया जाता है जो छोटे नमूनों के लिए बड़े होते हैं, जिससे त्रुटि का एक बड़ा मार्जिन उत्पन्न होता है। एक छोटे नमूने के आकार के रूप में कम सटीक होगा।

पायथन के साथ विश्वास अंतराल

पायथन के पास एक विशाल पुस्तकालय है जो सभी प्रकार की सांख्यिकीय गणनाओं का समर्थन करता है जिससे हमारा जीवन थोड़ा आसान हो जाता है। इस खंड में, हम बच्चों की नींद की आदतों के आंकड़ों को देखेंगे। इन अवलोकनों के 20 प्रतिभागी स्वस्थ थे, सामान्य व्यवहार वाले थे, उन्हें नींद की कोई बीमारी नहीं थी। हमारा लक्ष्य नैपिंग और नॉन-नैपिंग टॉडलर्स के सोने के समय का विश्लेषण करना है।

संदर्भ: अकासेम एलडी, सिम्पकिन सीटी, कारस्काडन एमए, राइट केपी जूनियर, जेनी ओजी, एचरमैन पी, एट अल। (2015) द टाइमिंग ऑफ़ द सर्कैडियन क्लॉक एंड स्लीप डिफ़र विद नैपिंग एंड नॉन-नैपिंग टॉडलर्स। प्लस वन 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

हम उन पुस्तकालयों का आयात करेंगे जिनकी हमें आवश्यकता होगी

import numpy as np import pandas as pd from scipy.stats import t pd.set_option('display.max_columns', 30) # set so can see all columns of the DataFrame import math
df = pd.read_csv(nap_no_nap.csv) #डेटा पढ़ना
df.head ()
पायथन के साथ विश्वास अंतराल

सोने के औसत समय के लिए दो 95% कॉन्फिडेंस इंटरवल बनाएं, एक झपकी लेने वाले बच्चों के लिए और दूसरा न करने वाले बच्चों के लिए। सबसे पहले, हम उन लोगों के लिए 'रात के सोने का समय' कॉलम अलग करेंगे, जो एक नए चर में झपकी लेते हैं, और जो किसी अन्य नए चर में झपकी नहीं लेते हैं। यहां सोने का समय दशमलव है।

bedtime_nap = df['night bedtime'].loc[df['napping'] == 1] bedtime_no_nap = df['night bedtime'].loc[df['napping'] == 0]

प्रिंट (लेन (बेडटाइम_नैप))

प्रिंट (लेन (बेडटाइम_नो_नैप))

आउटपुट: 15 एन 5


अब, हम झपकी और no_nap के लिए औसत सोने के समय का नमूना पाएंगे।

nap_mean_bedtime = सोने का समय_nap.mean() #20.304 no_nap_mean_bedtime = सोने का_no_nap.mean() #19.59

अब, हम X . के लिए प्रतिदर्श मानक विचलन ज्ञात करेंगेझपकी और एक्सकोई झपकी नहीं 

nap_s_bedtime = np.std(bedtime_nap,ddof=1) no_nap_s_bedtime = np.std(bedtime_no_nap,ddof=1)

नोट: ddof पैरामीटर नमूना एसटीडी देव के लिए 1 पर सेट है अन्यथा यह जनसंख्या एसटीडी देव बन जाएगा।

अब, हम X . के लिए नमूना मानक त्रुटि पाएंगेझपकी और एक्सकोई झपकी नहीं 

nap_se_mean_bedtime = nap_s_bedtime/math.sqrt(len(bedtime_nap)) #0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime/math.sqrt(len(bedtime_no_nap)) #0.2270

अब तक अच्छा है, अब चूंकि नमूना आकार छोटा है और हमारे पास जनसंख्या अनुपात का मानक विचलन नहीं है, हम t* मान का उपयोग करेंगे। t* मान ज्ञात करने का एक तरीका है . का उपयोग करना scipy.stats टी.पी.पी.एफ समारोह। t.ppf() के लिए तर्क हैं q = प्रतिशत, df = स्वतंत्रता की डिग्री, स्केल = एसटीडी देव, लोक = माध्य। चूंकि t-वितरण 95% विश्वास अंतराल के लिए सममित है, q 0.975 होगा। का संदर्भ लें इसका t.ppf() पर अधिक जानकारी के लिए।

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

अब, हम अंत में अपने कॉन्फिडेंस इंटरवल को बनाने के लिए टुकड़ों को जोड़ेंगे।

nap_ci_plus = nap_mean_bedtime + nap_t_star*nap_se_bedtime

nap_ci_minus = nap_mean_bedtime - nap_t_star*nap_se_bedtime

प्रिंट (nap_ci_minus, nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star*nap_se_bedtime

no_nap_ci_minus = no_nap_mean_bedtime - no_nap_t_star*nap_se_bedtime

प्रिंट (no_nap_ci_minus,no_nap_ci_plus)


output: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

व्याख्या: 

उपरोक्त परिणामों से, हम यह निष्कर्ष निकालते हैं कि हम 95% आश्वस्त हैं कि झपकी लेने वाले बच्चों के लिए सोने का औसत समय 19.98 - 20.63 (अपराह्न) के बीच है जबकि गैर-नैपिंग टॉडलर्स के लिए यह 18.96 - 20.22 (अपराह्न) के बीच है। ये नतीजे हमारी उम्मीद के मुताबिक हैं कि अगर आप दिन में झपकी लेंगे तो रात को देर से सोएंगे।

एंडनोट

तो, यह सब z और t मानों का उपयोग करके सरल आत्मविश्वास अंतराल के बारे में था। किसी भी सांख्यिकीय अध्ययन के मामले में जानना वास्तव में एक महत्वपूर्ण अवधारणा है। नमूना डेटा से जनसंख्या मापदंडों का अनुमान लगाने के लिए एक महान अनुमानित सांख्यिकीय पद्धति। कॉन्फिडेंस इंटरवल को परिकल्पना परीक्षण से भी जोड़ा जाता है कि 95% CI के लिए आप विसंगतियों के लिए 5% स्थान छोड़ते हैं। यदि शून्य परिकल्पना विश्वास अंतराल के भीतर आती है तो पी-मान बड़ा होगा और हम शून्य को अस्वीकार नहीं कर पाएंगे। इसके विपरीत, यदि यह इससे आगे निकल जाता है तो हमारे पास अशक्त को अस्वीकार करने और वैकल्पिक परिकल्पनाओं को स्वीकार करने के लिए पर्याप्त प्रमाण होंगे।

आशा है कि आपको लेख पसंद आया होगा और नया साल मुबारक हो (:

इस लेख में दिखाया गया मीडिया एनालिटिक्स विद्या के स्वामित्व में नहीं है और इसका उपयोग लेखक के विवेक पर किया जाता है।

स्रोत: https://www.analyticsvidhya.com/blog/2022/01/understanding-Conf-intervals-with-python/

समय टिकट:

से अधिक एनालिटिक्स विधा