تصویر توسط نویسنده
دانشمندان داده، مهندسان داده و مهندسان یادگیری ماشین زمان زیادی را صرف بررسی داده ها و یافتن نقشه های آماری یا نتیجه گیری از آنها می کنند. اما یک چیز بزرگ که برای این حرفهایها و هر کسی که به دادهها نگاه میکند یک مهارت لازم است، داشتن شهود خوبی برای دنیای واقعی است.
داده ها دارای چندین متغیر هستند که می توانید آنها را در نظر بگیرید، با این حال، خوب است توجه داشته باشید که نمایشی با ابعاد محدود تولید می کند. اینجاست که باید فراتر از داده ها را ببینید و بفهمید واقعیت پنهان چیست و چگونه می توان آن را در مجموعه داده اعمال کرد.
پارادوکس سیمپسون اهمیت شک و تردید بودن در هنگام تفسیر داده های خود و اطمینان از استفاده از دنیای واقعی را به ما ثابت می کند - بدون اینکه خود را از دیدن آن از دیدگاه داده محدود کنید.
در سال 1972 کالین آر. بلیت نام پارادوکس سیمپسون را معرفی کرد که به عنوان معکوس سیمپسون، اثر یول-سیمپسون، پارادوکس ادغام یا پارادوکس معکوس نیز شناخته می شود.
پارادوکس سیمپسون زمانی است که وقتی داده ها در گروه هایی قرار می گیرند که با ترکیب داده ها معکوس می شوند یا ناپدید می شوند، یک روند یا خروجی وجود دارد. این یک پارادوکس آماری است که در آن میتوان دو نتیجه متضاد از یک داده، بسته به نحوه گروهبندی دادهها، گرفت.
UC Berkeley و پارادوکس سیمپسون
یک مثال محبوب از پارادوکس سیمپسون، مطالعه دانشگاه کالیفرنیا برکلی در مورد سوگیری جنسیتی در پذیرش تحصیلات تکمیلی است. در سال 1973، در شروع سال تحصیلی، دانشکده تحصیلات تکمیلی UC Berkeley حدود 44٪ درخواست های مرد و 35٪ متقاضیان زن را پذیرفت. مدرسه می ترسید که آنها در برابر یک دعوی قضایی هستند، بنابراین با درخواست از پیتر بیکل، یک آمارشناس، برای بررسی این داده ها آماده شدند.
چیزی که او متوجه شد این بود که سوگیری جنسیتی معنیداری وجود داشت که به نفع زنان در 4/6 بخش بود، و در 2 بخش باقیمانده هیچ سوگیری جنسیتی قابلتوجهی وجود نداشت. درصد کمتری از متقاضیان
در پارادوکس سیمپسون، شما باید سناریوها و متغیرهای دنیای واقعی را در نظر بگیرید که می توانند پنهان شوند و به راحتی از طریق داده ها تفسیر نشوند. در این مثال، متغیر پنهان این است که زنان بیشتری برای یک بخش خاص درخواست داده اند. این امر بر درصد کلی متقاضیان پذیرفته شده تأثیر می گذارد، به گونه ای که روند معکوس را نشان می دهد که در ابتدا در داده ها وجود داشت.
سپس تیم به این نتیجه رسید که وقتی مدرسه را به بخشها تقسیم میکردند، خروجی آنها از دادهها تغییر میکرد.
تصویر زیر نحوه معکوس شدن روندها هنگام گروه بندی داده ها را توضیح می دهد:
تصویر ویکیپدیا
پارادوکس سیمپسون می تواند کار با داده ها را پیچیده تر کند و فرآیند تصمیم گیری را بسیار سخت تر کند.
اگر شروع به نمونهگیری مجدد از دادههای خود به شیوه متفاوتی کنید، نتایج متفاوتی خواهید گرفت. این به طور طبیعی انتخاب یک نتیجه گیری دقیق را برای شما دشوارتر می کند تا بینش های بیشتری کسب کنید. این به این معنی است که تیم باید بهترین نتیجهگیری را پیدا کند که بازنمایی منصفانه از دادهها داشته باشد.
هنگام کار با پروژه های مرتبط با داده، ما اغلب بر روی داده ها تمرکز می کنیم و سعی می کنیم داستانی را که می خواهد به ما بگوید تفسیر کنیم. اما اگر دانش دنیای واقعی را به کار ببریم، داستان کاملا متفاوتی را برای ما بازگو می کند.
درک اهمیت این موضوع فرصت های بیشتری را برای ما باز می کند تا عمیق تر به داده ها نگاه کنیم و تجزیه و تحلیل کافی برای کمک به فرآیند تصمیم گیری انجام دهیم. پارادوکس سیمپسون بر این تمرکز دارد که چگونه فقدان بینش تحلیلی کافی و دانش کلی پروژه می تواند ما را گمراه کند و تصمیمات اشتباه بگیریم.
به عنوان مثال، ما شاهد افزایش استفاده از تجزیه و تحلیل داده های بلادرنگ هستیم. تیمهای بیشتر و بیشتری این را برای کمک به شناسایی الگوها اجرا میکنند و از این بینش برای تصمیمگیری در دورههای کوتاه استفاده میکنند. کار با تجزیه و تحلیل داده های بلادرنگ زمانی موثر است که بر نحوه بهبود یک شرکت بر اساس داده های لحظه ای فعلی تمرکز می کنید. با این حال، این دوره های کوتاه می تواند باعث اطلاعات گمراه کننده شود و روند واقعی کلی را که داده ها نشان می دهد پنهان کند.
تجزیه و تحلیل اشتباه داده ها می تواند یک شرکت را عقب نگه دارد. و همه ما می دانیم که تصمیمات اشتباه همیشه یک شرکت را عقب می اندازد. بنابراین، در نظر گرفتن پارادوکس سیمپسون به این شرکت کمک می کند که محدودیت های داده ها، آنچه که داده ها را هدایت می کند و متغیرهای مختلف را درک کند و سوگیری را پایین نگه دارد.
Simpson's Paradox به متخصصانی که با داده ها کار می کنند در مورد اهمیت درک داده ها و سطح شهود داده آنها یادآوری می کند. این زمانی است که بسیاری از مهارتهای نرم حرفهای داده، مانند تفکر انتقادی، خود را نشان میدهند.
هدف این است که به دنبال سوگیری ها و متغیرهای پنهان موجود در داده ها بگردیم، که ممکن است در نگاه اول یا زمانی که تجزیه و تحلیل بالا انجام شده است به راحتی قابل کشف نباشند.
نکته ای که باید در مورد پارادوکس سیمپسون در نظر گرفت این است که تجمع بیش از حد داده ها به زودی بی فایده می شود و شروع به ایجاد سوگیری می کند. اما از سوی دیگر، اگر دادهها را تجمیع نکنیم، دادهها میتوانند در اطلاعات و الگوهای زیربنایی که میتواند به ما بگوید محدود شود.
برای جلوگیری از پارادوکس سیمپسون، باید داده های خود را به طور کامل بررسی کنید و مطمئن شوید که درک خوبی از مشکل تجاری در دست دارید.
نیشا آریا دانشمند داده، نویسنده فنی آزاد و مدیر انجمن در KDnuggets است. او به ویژه علاقه مند به ارائه مشاوره شغلی یا آموزش های علم داده و دانش مبتنی بر نظریه در مورد علم داده است. او همچنین مایل است راههای مختلفی را که هوش مصنوعی میتواند به طول عمر انسان کمک کند، کشف کند. یک یادگیرنده مشتاق که به دنبال گسترش دانش فنی و مهارت های نوشتاری خود است و در عین حال به راهنمایی دیگران کمک می کند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :است
- $UP
- ٪۱۰۰
- a
- درباره ما
- دانشگاهی
- پذیرفته
- حساب
- دقیق
- پذیرفته
- نصیحت
- در برابر
- تجمع
- معرفی
- همیشه
- تحلیل
- تحلیلی
- علم تجزیه و تحلیل
- و
- هر کس
- برنامه های کاربردی
- اعمال می شود
- درخواست
- با استفاده از
- هستند
- دور و بر
- مصنوعی
- هوش مصنوعی
- AS
- At
- اجتناب از
- به عقب
- مستقر
- BE
- شدن
- بودن
- در زیر
- سود
- مزایای
- برکلی
- بهترین
- خارج از
- تعصب
- بزرگ
- گسترده تر
- کسب و کار
- by
- CAN
- کاریابی
- علت
- را انتخاب کنید
- ترکیب شده
- بیا
- انجمن
- شرکت
- به طور کامل
- پیچیده
- به این نتیجه رسیدند
- نتیجه
- توجه
- بحرانی
- جاری
- داده ها
- تحلیل داده ها
- تجزیه و تحلیل داده ها
- علم اطلاعات
- دانشمند داده
- تصمیم گیری
- تصمیم گیری
- عمیق تر
- بخش
- گروه ها
- بستگی دارد
- مختلف
- ناپدید می شوند
- آیا
- طراحی
- به آسانی
- اثر
- موثر
- هر دو
- مورد تأیید
- اطمینان حاصل شود
- حصول اطمینان از
- مثال
- توضیح می دهد
- اکتشاف
- منصفانه
- توجه
- زن
- شکل
- پیدا کردن
- پیدا کردن
- نام خانوادگی
- نگاه اول
- متمرکز شده است
- تمرکز
- تمرکز
- برای
- یافت
- آزاد
- از جانب
- بیشتر
- جنس
- خوب
- فارغ التحصیل
- گروه ها
- راهنمایی
- دست
- آیا
- داشتن
- کمک
- کمک
- کمک می کند
- پنهان
- پنهان شدن
- زیاد
- نگه داشتن
- چگونه
- چگونه
- اما
- HTTPS
- انسان
- تصویر
- اجرای
- پیامدهای
- اهمیت
- بهبود
- in
- اطلاعات
- در ابتدا
- بینش
- بینش
- اطلاعات
- علاقه مند
- معرفی
- معرفی
- شهود
- IT
- ITS
- JPG
- kdnuggets
- مشتاق
- دانستن
- دانش
- شناخته شده
- عدم
- طرح دعوی در دادگاه
- فراگیر
- یادگیری
- مهندسان یادگیرنده
- سطح
- زندگی
- محدودیت
- محدود شده
- لینک
- طول عمر
- نگاه کنيد
- به دنبال
- خیلی
- کم
- دستگاه
- فراگیری ماشین
- ساخت
- مدیر
- به معنی
- بیش
- نام
- به طور طبیعی
- نیاز
- of
- on
- ONE
- باز می شود
- فرصت ها
- مقابل
- دیگر
- دیگران
- تولید
- به طور کلی
- قیاس ضد و نقیض
- ویژه
- الگوهای
- درصد
- انجام دادن
- دوره ها
- از پا افتادن
- افلاطون
- هوش داده افلاطون
- PlatoData
- محبوب
- آماده شده
- در حال حاضر
- مشکل
- روند
- حرفه ای
- پروژه
- پروژه ها
- اثبات می کند
- ارائه
- قرار دادن
- واقعی
- دنیای واقعی
- زمان واقعی
- داده های زمان واقعی
- واقعیت
- باقی مانده
- نمایندگی
- ضروری
- محدود کردن
- برگشت
- معکوس
- این فایل نقد می نویسید:
- طلوع
- s
- همان
- سناریوها
- مدرسه
- علم
- دانشمند
- دانشمندان
- مشاهده
- به دنبال
- چند
- کوتاه
- نشان می دهد
- قابل توجه
- دیر باور
- مهارت
- مهارت ها
- کوچکتر
- نرم
- بزودی
- خاص
- خرج کردن
- شروع
- آماری
- داستان
- مهاجرت تحصیلی
- چنین
- کافی
- گرفتن
- مصرف
- تیم
- تیم ها
- فن آوری
- فنی
- که
- La
- اطلاعات
- شان
- خودشان
- از این رو
- اینها
- چیز
- تفکر
- به طور کامل
- از طریق
- زمان
- به
- هم
- روند
- روند
- درست
- آموزش
- اساسی
- فهمیدن
- درک
- us
- استفاده کنید
- متغیرها
- مسیر..
- راه
- چی
- که
- در حالیکه
- ویکیپدیا
- اراده
- خواسته
- با
- بدون
- زنان
- کارگر
- جهان
- خواهد بود
- نویسنده
- نوشته
- اشتباه
- سال
- شما
- خودت
- زفیرنت