लेखक द्वारा छवि
डेटा वैज्ञानिक, डेटा इंजीनियर और मशीन लर्निंग इंजीनियर अपना बहुत सारा समय डेटा को देखने और उससे सांख्यिकीय चित्र या निष्कर्ष निकालने में बिताते हैं। लेकिन एक बड़ी बात यह है कि इन पेशेवरों के लिए एक आवश्यक कौशल है और डेटा को देखने वाले किसी भी व्यक्ति के पास वास्तविक दुनिया के लिए अच्छा अंतर्ज्ञान होना चाहिए।
डेटा में कई चर होते हैं जिन पर आप विचार कर सकते हैं, हालांकि, यह ध्यान रखना अच्छा है कि यह एक सीमित-आयामी प्रतिनिधित्व उत्पन्न करता है। यह वह जगह है जहां आपको डेटा से परे देखना होगा और पता लगाना होगा कि छिपी हुई वास्तविकता क्या है और इसे डेटासेट पर कैसे लागू किया जा सकता है।
सिम्पसन का विरोधाभास हमें आपके डेटा की व्याख्या करते समय संदेह करने और यह सुनिश्चित करने के महत्व को साबित करता है कि आप वास्तविक दुनिया को लागू करते हैं - खुद को डेटा दृष्टिकोण से देखने से प्रतिबंधित किए बिना।
1972 में कॉलिन आर. ब्लिथ ने सिम्पसन विरोधाभास नाम पेश किया, जिसे सिम्पसन उत्क्रमण, यूल-सिम्पसन प्रभाव, समामेलन विरोधाभास या उत्क्रमण विरोधाभास के रूप में भी जाना जाता है।
सिम्पसन का विरोधाभास तब होता है जब डेटा को समूहों में डालने पर कोई प्रवृत्ति या आउटपुट मौजूद होता है जो डेटा संयुक्त होने पर या तो उलट जाता है या गायब हो जाता है। यह एक सांख्यिकीय विरोधाभास है जहां यह एक ही डेटा से दो विपरीत निष्कर्ष निकाल सकता है, यह इस बात पर निर्भर करता है कि डेटा को कैसे समूहीकृत किया गया है।
यूसी बर्कले और सिम्पसन का विरोधाभास
सिम्पसन के विरोधाभास का एक लोकप्रिय उदाहरण स्नातक विद्यालय प्रवेश में लिंग पूर्वाग्रह पर यूसी बर्कले का अध्ययन है। 1973 में, शैक्षणिक वर्ष की शुरुआत में, यूसी बर्कले के ग्रेजुएट स्कूल ने लगभग 44% पुरुष आवेदकों और 35% महिला आवेदकों को प्रवेश दिया। स्कूल को डर था कि उन पर मुकदमा चल रहा है, इसलिए उन्होंने एक सांख्यिकीविद् पीटर बिकेल से डेटा देखने के लिए कहकर इसके लिए तैयारी की।
उन्होंने पाया कि सांख्यिकीय रूप से महत्वपूर्ण लिंग पूर्वाग्रह था जो 4/6 विभागों में महिलाओं के पक्ष में था, और शेष 2 में कोई महत्वपूर्ण लिंग पूर्वाग्रह नहीं था। टीम के निष्कर्षों से पता चला कि महिलाओं ने उन विभागों के लिए आवेदन किया था जिनमें समग्र आवेदकों का छोटा प्रतिशत।
सिम्पसन के विरोधाभास में, आपको वास्तविक दुनिया के परिदृश्यों और चरों को ध्यान में रखना होगा जिन्हें छिपाया जा सकता है और डेटा के माध्यम से आसानी से व्याख्या नहीं की जा सकती है। इस उदाहरण में, छिपी हुई बात यह है कि अधिक महिलाएँ एक विशिष्ट विभाग के लिए आवेदन कर रही थीं। यह स्वीकृत आवेदकों के कुल प्रतिशत को प्रभावित करता है, एक तरह से जो डेटा में शुरू में मौजूद विपरीत प्रवृत्ति को दर्शाता है।
टीम ने तब निष्कर्ष निकाला कि जब उन्होंने स्कूल को विभागों में विभाजित करते समय इसे ध्यान में रखा तो डेटा पर उनका आउटपुट बदल गया।
नीचे दी गई छवि बताती है कि जब डेटा को समूहीकृत किया जाता है तो रुझान कैसे उलट जाते हैं:
छवि द्वारा विकिपीडिया
सिम्पसन का विरोधाभास डेटा के साथ काम करना अधिक जटिल बना सकता है और निर्णय लेने की प्रक्रिया को और अधिक कठिन बना सकता है।
यदि आप अपने डेटा का अलग-अलग तरीके से पुन: नमूनाकरण करना शुरू करते हैं, तो आप अलग-अलग निष्कर्ष निकालेंगे। इससे स्वाभाविक रूप से आपके लिए आगे की अंतर्दृष्टि प्राप्त करने के लिए एक विशिष्ट सटीक निष्कर्ष चुनना कठिन हो जाएगा। इसका मतलब यह है कि टीम को सर्वोत्तम निष्कर्ष ढूंढना होगा जिसमें डेटा का उचित प्रतिनिधित्व हो।
डेटा-संबंधित परियोजनाओं के साथ काम करते समय, हम अक्सर डेटा पर ध्यान केंद्रित करते हैं और उस कहानी की व्याख्या करने का प्रयास करते हैं जो यह हमें बताने की कोशिश कर रहा है। लेकिन अगर हम वास्तविक दुनिया के ज्ञान को लागू करें, तो यह हमें एक पूरी तरह से अलग कहानी बताएगा।
इसके महत्व को समझने से हमारे लिए डेटा को गहराई से देखने और निर्णय लेने की प्रक्रिया में मदद करने के लिए पर्याप्त विश्लेषण करने के अधिक अवसर खुलते हैं। सिम्पसन का विरोधाभास इस बात पर केंद्रित है कि कैसे पर्याप्त विश्लेषणात्मक अंतर्दृष्टि और समग्र परियोजना ज्ञान की कमी हमें गुमराह कर सकती है और गलत निर्णय ले सकती है।
उदाहरण के लिए, हम रीयल-टाइम डेटा एनालिटिक्स के उपयोग में वृद्धि देख रहे हैं। अधिक से अधिक टीमें पैटर्न का पता लगाने में मदद करने के लिए इसे लागू कर रही हैं, और छोटी अवधि में निर्णय लेने के लिए इस अंतर्दृष्टि का उपयोग करती हैं। वास्तविक समय डेटा विश्लेषण के साथ काम करना तब प्रभावी होता है जब आप वर्तमान वास्तविक समय डेटा के आधार पर किसी कंपनी को कैसे बेहतर बनाया जाए, इस पर ध्यान केंद्रित कर रहे हैं। हालाँकि, ये छोटी अवधि भ्रामक जानकारी का कारण बन सकती है और डेटा द्वारा दिखाए जाने वाले समग्र वास्तविक रुझान को छिपा सकती है।
गलत डेटा विश्लेषण किसी कंपनी को पीछे धकेल सकता है। और हम सभी जानते हैं कि गलत फैसले हमेशा कंपनी को पीछे खींचते हैं। इसलिए, सिम्पसन के विरोधाभास को ध्यान में रखने से कंपनी को डेटा की सीमाओं, डेटा को चलाने वाले और विभिन्न चर को समझने में लाभ होता है और पूर्वाग्रह कम रहता है।
सिम्पसन का विरोधाभास डेटा के साथ काम करने वाले पेशेवरों को डेटा को समझने के महत्व और उनके डेटा अंतर्ज्ञान के स्तर के बारे में याद दिलाने में मदद करता है। यह तब होता है जब बहुत सारे डेटा पेशेवरों के सॉफ्ट कौशल खुद को प्रस्तुत करेंगे, जैसे कि आलोचनात्मक सोच।
इसका उद्देश्य डेटा में मौजूद छिपे हुए पूर्वाग्रहों और चरों की तलाश करना है, जिन्हें पहली नज़र में या उच्च विश्लेषण किए जाने पर आसानी से खोजा नहीं जा सकता है।
सिम्पसन के विरोधाभास के बारे में ध्यान रखने योग्य एक बात यह है कि डेटा का बहुत अधिक एकत्रीकरण जल्द ही बेकार हो सकता है और पूर्वाग्रह पैदा करना शुरू कर सकता है। लेकिन दूसरी ओर, यदि हम डेटा को एकत्रित नहीं करते हैं, तो डेटा उस जानकारी और अंतर्निहित पैटर्न में सीमित हो सकता है जो वह हमें बता सकता है।
सिम्पसन के विरोधाभास से बचने के लिए, आपको अपने डेटा की पूरी तरह से समीक्षा करने और यह सुनिश्चित करने की आवश्यकता होगी कि आपको मौजूदा व्यावसायिक समस्या की अच्छी समझ है।
निशा आर्य KDnuggets में एक डेटा वैज्ञानिक, स्वतंत्र तकनीकी लेखक और सामुदायिक प्रबंधक हैं। वह विशेष रूप से डेटा साइंस करियर सलाह या ट्यूटोरियल और डेटा साइंस के आसपास सिद्धांत आधारित ज्ञान प्रदान करने में रुचि रखती है। वह उन विभिन्न तरीकों का पता लगाना चाहती हैं जिनसे आर्टिफिशियल इंटेलिजेंस मानव जीवन की दीर्घायु को लाभ पहुंचा सकता है। एक उत्सुक शिक्षार्थी, दूसरों का मार्गदर्शन करने में मदद करते हुए, अपने तकनीकी ज्ञान और लेखन कौशल को व्यापक बनाना चाहती है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :है
- $यूपी
- 35% तक
- a
- About
- शैक्षिक
- स्वीकृत
- लेखा
- सही
- स्वीकार किया
- सलाह
- के खिलाफ
- एकत्रीकरण
- सब
- हमेशा
- विश्लेषण
- विश्लेषणात्मक
- विश्लेषिकी
- और
- किसी
- अनुप्रयोगों
- लागू
- लागू करें
- लागू
- हैं
- चारों ओर
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- At
- से बचने
- वापस
- आधारित
- BE
- बन
- जा रहा है
- नीचे
- लाभ
- लाभ
- बर्कले
- BEST
- परे
- पूर्वाग्रह
- बड़ा
- व्यापक
- व्यापार
- by
- कर सकते हैं
- कैरियर
- कारण
- चुनें
- संयुक्त
- कैसे
- समुदाय
- कंपनी
- पूरी तरह से
- जटिल
- निष्कर्ष निकाला
- निष्कर्ष
- विचार
- महत्वपूर्ण
- वर्तमान
- तिथि
- डेटा विश्लेषण
- डेटा विश्लेषण
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- निर्णय
- निर्णय
- और गहरा
- विभाग
- विभागों
- निर्भर करता है
- विभिन्न
- गायब होना
- dont
- आरेखण
- आसानी
- प्रभाव
- प्रभावी
- भी
- इंजीनियर्स
- सुनिश्चित
- सुनिश्चित
- उदाहरण
- बताते हैं
- का पता लगाने
- निष्पक्ष
- एहसान
- महिला
- आकृति
- खोज
- खोज
- प्रथम
- पहले देखो
- ध्यान केंद्रित
- केंद्रित
- ध्यान केंद्रित
- के लिए
- पाया
- फ्रीलांस
- से
- आगे
- लिंग
- अच्छा
- स्नातक
- समूह की
- गाइड
- हाथ
- है
- होने
- मदद
- मदद
- मदद करता है
- छिपा हुआ
- छिपाना
- हाई
- पकड़
- कैसे
- How To
- तथापि
- HTTPS
- मानव
- की छवि
- कार्यान्वयन
- निहितार्थ
- महत्व
- में सुधार
- in
- करें-
- शुरू में
- अन्तर्दृष्टि
- अंतर्दृष्टि
- बुद्धि
- रुचि
- परिचय कराना
- शुरू की
- अंतर्ज्ञान
- IT
- आईटी इस
- जेपीजी
- केडनगेट्स
- इच्छुक
- जानना
- ज्ञान
- जानने वाला
- रंग
- मुक़दमा
- सिखाने वाला
- सीख रहा हूँ
- इंजीनियरों को सीखना
- स्तर
- जीवन
- सीमाओं
- सीमित
- लिंक्डइन
- दीर्घायु
- देखिए
- देख
- लॉट
- निम्न
- मशीन
- यंत्र अधिगम
- बनाना
- प्रबंधक
- साधन
- अधिक
- नाम
- प्राकृतिक रूप से
- आवश्यकता
- of
- on
- ONE
- खोलता है
- अवसर
- विपरीत
- अन्य
- अन्य
- उत्पादन
- कुल
- विरोधाभास
- विशेष रूप से
- पैटर्न उपयोग करें
- प्रतिशतता
- निष्पादन
- अवधि
- पीटर
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- लोकप्रिय
- तैयार
- वर्तमान
- मुसीबत
- प्रक्रिया
- पेशेवरों
- परियोजना
- परियोजनाओं
- साबित होता है
- प्रदान कर
- रखना
- वास्तविक
- असली दुनिया
- वास्तविक समय
- वास्तविक समय डाटा
- वास्तविकता
- शेष
- प्रतिनिधित्व
- अपेक्षित
- सीमित
- उलट
- उल्टा
- की समीक्षा
- वृद्धि
- s
- वही
- परिदृश्यों
- स्कूल के साथ
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- देखकर
- मांग
- कई
- कम
- दिखाता है
- महत्वपूर्ण
- उलझन में
- कौशल
- कौशल
- छोटे
- नरम
- जल्दी
- विशिष्ट
- बिताना
- प्रारंभ
- सांख्यिकीय
- कहानी
- अध्ययन
- ऐसा
- पर्याप्त
- लेना
- ले जा
- टीम
- टीमों
- तकनीक
- तकनीकी
- कि
- RSI
- जानकारी
- लेकिन हाल ही
- अपने
- इसलिये
- इन
- बात
- विचारधारा
- बिलकुल
- यहाँ
- पहर
- सेवा मेरे
- भी
- प्रवृत्ति
- रुझान
- <strong>उद्देश्य</strong>
- ट्यूटोरियल
- आधारभूत
- समझना
- समझ
- us
- उपयोग
- चर
- मार्ग..
- तरीके
- क्या
- कौन कौन से
- Whilst
- विकिपीडिया
- मर्जी
- इच्छाओं
- साथ में
- बिना
- महिलाओं
- काम कर रहे
- विश्व
- होगा
- लेखक
- लिख रहे हैं
- गलत
- वर्ष
- आपका
- स्वयं
- जेफिरनेट