Gambar oleh Penulis
Ilmuwan Data, Insinyur Data, dan Insinyur Pembelajaran Mesin menghabiskan banyak waktu mereka untuk melihat data dan menemukan gambar statistik atau kesimpulan darinya. Tetapi hal besar yang merupakan keterampilan yang diperlukan untuk para profesional ini dan siapa pun yang melihat data memiliki intuisi yang baik untuk dunia nyata.
Data memiliki beberapa variabel yang dapat Anda pertimbangkan, namun perlu dicatat bahwa ini menghasilkan representasi dimensi yang terbatas. Di sinilah Anda harus melihat melampaui data dan mencari tahu apa realitas tersembunyi itu dan bagaimana itu dapat diterapkan pada kumpulan data.
Paradoks Simpson membuktikan kepada kita pentingnya bersikap skeptis saat menginterpretasikan data Anda, dan memastikan Anda menerapkan dunia nyata – tanpa membatasi diri Anda untuk melihatnya dari sudut pandang data.
Pada tahun 1972 Colin R. Blyth memperkenalkan nama paradoks Simpson, juga dikenal sebagai pembalikan Simpson, efek Yule-Simpson, paradoks penggabungan atau paradoks pembalikan.
Paradoks Simpson adalah ketika tren atau keluaran hadir ketika data dimasukkan ke dalam kelompok yang terbalik atau hilang ketika data digabungkan. Ini adalah paradoks statistik di mana ia dapat menarik dua kesimpulan yang berlawanan dari data yang sama, tergantung pada bagaimana data dikelompokkan.
Paradoks UC Berkeley dan Simpson
Contoh populer dari paradoks Simpson adalah studi UC Berkeley tentang bias gender dalam penerimaan sekolah pascasarjana. Pada tahun 1973, pada awal tahun akademik, sekolah pascasarjana UC Berkeley menerima sekitar 44% pelamar pria dan 35% pelamar wanita. Sekolah takut akan menghadapi tuntutan hukum, oleh karena itu bersiaplah untuk ini dengan meminta Peter Bickel, seorang ahli statistik untuk melihat datanya.
Apa yang dia temukan adalah ada bias gender yang signifikan secara statistik yang berpihak pada wanita di 4/6 departemen, dan tidak ada bias gender yang signifikan di 2 departemen lainnya. Temuan tim menunjukkan bahwa wanita melamar ke departemen yang memiliki keseluruhan persentase pelamar yang lebih kecil.
Dalam Simpson's Paradox, Anda perlu mempertimbangkan skenario dan variabel dunia nyata yang dapat disembunyikan dan tidak mudah ditafsirkan melalui data. Dalam contoh ini, variabel tersembunyinya adalah lebih banyak wanita yang melamar ke departemen tertentu. Ini mempengaruhi keseluruhan persentase pelamar yang diterima, dengan cara yang menunjukkan tren kebalikan yang awalnya ada dalam data.
Tim kemudian menyimpulkan bahwa keluaran mereka pada data berubah ketika mereka memperhitungkannya saat membagi sekolah menjadi beberapa departemen.
Gambar di bawah menjelaskan bagaimana tren berbalik saat data dikelompokkan:
Image by Wikipedia
Paradoks Simpson dapat membuat bekerja dengan data menjadi lebih kompleks dan membuat proses pengambilan keputusan jauh lebih sulit.
Jika Anda mulai mengambil sampel ulang data Anda secara berbeda, Anda akan mendapatkan kesimpulan yang berbeda. Ini secara alami akan mempersulit Anda untuk memilih satu kesimpulan spesifik yang akurat untuk menarik wawasan lebih lanjut. Ini berarti bahwa tim harus menemukan kesimpulan terbaik yang memiliki representasi data yang adil.
Saat bekerja dengan proyek terkait data, kami sering berfokus pada data dan mencoba menafsirkan cerita yang ingin disampaikannya kepada kami. Tetapi jika kita menerapkan pengetahuan dunia nyata, itu akan memberi tahu kita cerita yang sama sekali berbeda.
Memahami pentingnya hal ini membuka lebih banyak peluang bagi kami untuk melihat lebih dalam data dan melakukan analisis yang memadai untuk membantu dalam proses pengambilan keputusan. Paradoks Simpson berfokus pada bagaimana kurangnya wawasan analitis yang memadai dan pengetahuan proyek secara keseluruhan dapat menyesatkan kita dan membuat keputusan yang salah.
Misalnya, kami melihat peningkatan penggunaan analitik data real-time. Semakin banyak tim yang menerapkan ini untuk membantu mendeteksi pola, dan menggunakan wawasan ini untuk mengambil keputusan dalam waktu singkat. Bekerja dengan analisis data real-time efektif ketika Anda berfokus pada bagaimana meningkatkan perusahaan berdasarkan data real-time saat ini. Namun, periode singkat ini dapat menyebabkan informasi yang menyesatkan dan menyembunyikan keseluruhan tren sebenarnya yang ditunjukkan oleh data.
Analisis data yang salah dapat menahan perusahaan. Dan kita semua tahu bahwa keputusan yang salah selalu menghambat perusahaan. Oleh karena itu, dengan mempertimbangkan paradoks Simpson menguntungkan perusahaan untuk memahami keterbatasan data, apa yang mendorong data, dan variabel yang berbeda serta menjaga bias tetap rendah.
Paradoks Simpson membantu mengingatkan para profesional yang bekerja dengan data tentang pentingnya memahami data dan tingkat intuisi data mereka. Ini adalah saat banyak keterampilan lunak profesional data akan muncul dengan sendirinya, seperti pemikiran kritis.
Tujuannya adalah untuk mencari bias dan variabel tersembunyi yang ada dalam data, yang mungkin tidak mudah ditemukan pada pandangan pertama atau ketika analisis tinggi telah dilakukan.
Satu hal yang perlu dipertimbangkan tentang paradoks Simpson adalah bahwa terlalu banyak agregasi data dapat segera menjadi tidak berguna dan mulai menimbulkan bias. Namun di sisi lain, jika kita tidak mengagregasi data, data dapat dibatasi dalam informasi dan pola dasar yang dapat disampaikannya kepada kita.
Untuk menghindari paradoks Simpson, Anda perlu meninjau data Anda secara menyeluruh dan memastikan Anda memiliki pemahaman yang baik tentang masalah bisnis yang dihadapi.
Nisa Arya adalah Ilmuwan Data, Penulis Teknis Lepas, dan Manajer Komunitas di KDnuggets. Dia sangat tertarik untuk memberikan nasihat atau tutorial karir Ilmu Data dan pengetahuan berbasis teori seputar Ilmu Data. Dia juga ingin menjelajahi berbagai cara Kecerdasan Buatan bermanfaat bagi umur panjang kehidupan manusia. Seorang pembelajar yang tajam, berusaha memperluas pengetahuan teknologi dan keterampilan menulisnya, sambil membantu membimbing orang lain.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :adalah
- $NAIK
- 35%
- a
- Tentang Kami
- akademik
- diterima
- Akun
- tepat
- mengaku
- nasihat
- terhadap
- pengumpulan
- Semua
- selalu
- analisis
- Analytical
- analisis
- dan
- siapapun
- aplikasi
- terapan
- Mendaftar
- Menerapkan
- ADALAH
- sekitar
- buatan
- kecerdasan buatan
- AS
- At
- menghindari
- kembali
- berdasarkan
- BE
- menjadi
- makhluk
- di bawah
- manfaat
- Manfaat
- Berkeley
- TERBAIK
- Luar
- prasangka
- Besar
- memperluas
- bisnis
- by
- CAN
- Lowongan Kerja
- Menyebabkan
- Pilih
- bergabung
- bagaimana
- masyarakat
- perusahaan
- sama sekali
- kompleks
- Disimpulkan
- kesimpulan
- pertimbangan
- kritis
- terbaru
- data
- analisis data
- Data Analytics
- ilmu data
- ilmuwan data
- Pengambilan Keputusan
- keputusan
- lebih dalam
- Departemen
- departemen
- Tergantung
- berbeda
- menghilang
- Dont
- Gambar
- mudah
- efek
- Efektif
- antara
- Insinyur
- memastikan
- memastikan
- contoh
- Menjelaskan
- menyelidiki
- adil
- mendukung
- wanita
- Angka
- Menemukan
- temuan
- Pertama
- Lihat Pertama
- terfokus
- berfokus
- berfokus
- Untuk
- ditemukan
- lepas
- dari
- lebih lanjut
- Gender
- baik
- lulus
- Grup
- membimbing
- tangan
- Memiliki
- memiliki
- membantu
- membantu
- membantu
- Tersembunyi
- menyembunyikan
- High
- memegang
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- Namun
- HTTPS
- manusia
- gambar
- mengimplementasikan
- implikasi
- pentingnya
- memperbaiki
- in
- informasi
- mulanya
- wawasan
- wawasan
- Intelijen
- tertarik
- memperkenalkan
- diperkenalkan
- intuisi
- IT
- NYA
- jpg
- KDnugget
- Tajam
- Tahu
- pengetahuan
- dikenal
- Kekurangan
- perkara hukum
- pelajar
- pengetahuan
- insinyur pembelajaran
- Tingkat
- Hidup
- keterbatasan
- Terbatas
- umur panjang
- melihat
- mencari
- Lot
- Rendah
- mesin
- Mesin belajar
- membuat
- manajer
- cara
- lebih
- nama
- tentu saja
- Perlu
- of
- on
- ONE
- membuka
- Peluang
- seberang
- Lainnya
- Lainnya
- keluaran
- secara keseluruhan
- Paradoks
- khususnya
- pola
- persentase
- melakukan
- periode
- Petrus
- plato
- Kecerdasan Data Plato
- Data Plato
- Populer
- siap
- menyajikan
- Masalah
- proses
- profesional
- proyek
- memprojeksikan
- membuktikan
- menyediakan
- menempatkan
- nyata
- dunia nyata
- real-time
- data waktu nyata
- Kenyataan
- yang tersisa
- perwakilan
- wajib
- membatasi
- Pembalikan
- membalikkan
- ulasan
- Naik
- s
- sama
- skenario
- Sekolah
- Ilmu
- ilmuwan
- ilmuwan
- melihat
- pencarian
- beberapa
- Pendek
- Pertunjukkan
- penting
- skeptis
- ketrampilan
- keterampilan
- lebih kecil
- Lunak
- Segera
- tertentu
- menghabiskan
- awal
- statistik
- Cerita
- Belajar
- seperti itu
- cukup
- Mengambil
- pengambilan
- tim
- tim
- tech
- Teknis
- bahwa
- Grafik
- informasi
- mereka
- diri
- karena itu
- Ini
- hal
- Pikir
- sepenuhnya
- Melalui
- waktu
- untuk
- terlalu
- kecenderungan
- Tren
- benar
- tutorial
- pokok
- memahami
- pemahaman
- us
- menggunakan
- variabel
- Cara..
- cara
- Apa
- yang
- Sementara
- Wikipedia
- akan
- keinginan
- dengan
- tanpa
- Wanita
- kerja
- dunia
- akan
- penulis
- penulisan
- Salah
- tahun
- Anda
- diri
- zephyrnet.dll