Imagen del autor
Los científicos de datos, los ingenieros de datos y los ingenieros de aprendizaje automático dedican mucho tiempo a observar datos y encontrar dibujos estadísticos o conclusiones a partir de ellos. Pero una gran cosa que es una habilidad requerida para estos profesionales y cualquiera que busque datos es tener una buena intuición para el mundo real.
Los datos tienen varias variables que puede tener en cuenta, sin embargo, es bueno tener en cuenta que producen una representación de dimensión finita. Aquí es donde tendrá que ver más allá de los datos y descubrir cuál es la realidad oculta y cómo se puede aplicar al conjunto de datos.
La paradoja de Simpson nos demuestra la importancia de ser escéptico al interpretar sus datos y asegurarse de aplicar el mundo real, sin restringirse a verlo desde el punto de vista de los datos.
En 1972, Colin R. Blyth introdujo el nombre de paradoja de Simpson, también conocida como inversión de Simpson, efecto Yule-Simpson, paradoja de amalgamación o paradoja de inversión.
La paradoja de Simpson es cuando una tendencia o resultado está presente cuando los datos se colocan en grupos que se invierten o desaparecen cuando se combinan los datos. Es una paradoja estadística donde se pueden sacar dos conclusiones opuestas de los mismos datos, dependiendo de cómo se agrupen los datos.
UC Berkeley y la paradoja de Simpson
Un ejemplo popular de la paradoja de Simpson es el estudio de UC Berkeley sobre el sesgo de género en las admisiones a las escuelas de posgrado. En 1973, al comienzo del año académico, la escuela de posgrado de UC Berkeley admitió alrededor del 44% de solicitudes de hombres y el 35% de mujeres. La escuela temía enfrentarse a una demanda, por lo que se preparó para esto pidiéndole a Peter Bickel, un estadístico, que revisara los datos.
Lo que descubrió fue que había un sesgo de género estadísticamente significativo a favor de las mujeres en 4/6 departamentos, y que no había un sesgo de género significativo en los 2 restantes. Los hallazgos del equipo mostraron que las mujeres solicitaron departamentos que tenían un menor porcentaje de aspirantes.
En Simpson's Paradox, debe tener en cuenta los escenarios y las variables del mundo real que pueden ocultarse y no interpretarse fácilmente a través de los datos. En este ejemplo, la variable oculta es que más mujeres postulaban para un departamento específico. Esto afecta el porcentaje general de solicitantes aceptados, de manera que muestra la tendencia inversa que existía inicialmente en los datos.
Luego, el equipo concluyó que su salida de los datos cambió cuando los tomaron en cuenta al dividir la escuela en departamentos.
La siguiente imagen explica cómo se invierten las tendencias cuando se agrupan los datos:
Imagen de Wikipedia
La paradoja de Simpson puede hacer que trabajar con datos sea más complejo y que el proceso de toma de decisiones sea mucho más difícil.
Si comienza a volver a muestrear sus datos de manera diferente, obtendrá conclusiones diferentes. Naturalmente, esto hará que le resulte más difícil elegir una conclusión precisa específica para obtener más información. Esto significa que el equipo tendrá que encontrar la mejor conclusión que tenga una representación justa de los datos.
Cuando trabajamos con proyectos relacionados con datos, a menudo nos enfocamos en los datos e intentamos interpretar la historia que intentan contarnos. Pero si aplicamos el conocimiento del mundo real, nos contaría una historia completamente diferente.
Comprender la importancia de esto nos abre más oportunidades para profundizar en los datos y realizar un análisis suficiente para ayudar en el proceso de toma de decisiones. La paradoja de Simpson se centra en cómo la falta de suficiente visión analítica y conocimiento general del proyecto puede engañarnos y tomar decisiones equivocadas.
Por ejemplo, estamos viendo un aumento en el uso de análisis de datos en tiempo real. Cada vez más equipos están implementando esto para ayudar a detectar patrones y usar esta información para tomar decisiones en períodos cortos. Trabajar con análisis de datos en tiempo real es eficaz cuando se centra en cómo mejorar una empresa en función de los datos actuales en tiempo real. Sin embargo, estos períodos cortos pueden generar información engañosa y ocultar la verdadera tendencia general que muestran los datos.
El análisis de datos incorrecto puede frenar a una empresa. Y todos sabemos que las decisiones equivocadas siempre frenan a una empresa. Por lo tanto, tener en cuenta la paradoja de Simpson beneficia a la empresa para comprender las limitaciones de los datos, qué los impulsa y las diferentes variables y mantiene el sesgo bajo.
Simpson's Paradox ayuda a recordar a los profesionales que trabajan con datos sobre la importancia de comprender los datos y su nivel de intuición de datos. Aquí es cuando se presentarán muchas habilidades blandas de los profesionales de datos, como el pensamiento crítico.
El objetivo es buscar sesgos ocultos y variables que están presentes en los datos, que pueden no ser fácilmente detectables a primera vista o cuando se ha realizado un análisis detallado.
Una cosa a tener en cuenta sobre la paradoja de Simpson es que demasiada agregación de datos pronto puede volverse inútil y comenzar a introducir sesgos. Pero, por otro lado, si no agregamos los datos, los datos pueden verse limitados en la información y los patrones subyacentes que nos pueden decir.
Para evitar la paradoja de Simpson, deberá revisar sus datos a fondo y asegurarse de tener una buena comprensión del problema empresarial en cuestión.
nisha aria es científico de datos, escritor técnico independiente y administrador de la comunidad en KDnuggets. Ella está particularmente interesada en proporcionar consejos o tutoriales sobre la carrera de Data Science y conocimiento basado en la teoría sobre Data Science. También desea explorar las diferentes formas en que la Inteligencia Artificial es o puede beneficiar la longevidad de la vida humana. Una estudiante entusiasta que busca ampliar sus conocimientos tecnológicos y sus habilidades de escritura, mientras ayuda a guiar a otros.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
- Fuente: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :es
- $ UP
- 35%
- a
- Sobre
- académico
- aceptado
- Mi Cuenta
- preciso
- aceptado
- consejos
- en contra
- agregación
- Todos
- hacerlo
- análisis
- Pruebas analíticas
- Analytics
- y
- nadie
- aplicaciones
- aplicada
- Aplicá
- La aplicación de
- somos
- en torno a
- artificial
- inteligencia artificial
- AS
- At
- evitar
- Atrás
- basado
- BE
- a las que has recomendado
- "Ser"
- a continuación
- es el beneficio
- beneficios
- Berkeley
- MEJOR
- Más allá de
- parcialidad
- Big
- ampliar
- by
- PUEDEN
- Propósito
- Causar
- Elige
- combinado
- cómo
- vibrante e inclusiva
- compañía
- completamente
- integraciones
- Concluido
- conclusión
- consideración
- crítico
- Current
- datos
- análisis de los datos
- Data Analytics
- Ciencia de los datos
- científico de datos
- Toma de Decisiones
- decisiones
- más profundo
- Departamento
- departamentos
- Dependiente
- una experiencia diferente
- desaparecer
- No
- Dibujos
- pasan fácilmente
- efecto
- Eficaz
- ya sea
- certificados
- garantizar
- asegurando que
- ejemplo
- Explica
- explorar
- feria
- Favorecer
- hembra
- Figura
- Encuentre
- la búsqueda de
- Nombre
- Primera vista
- centrado
- se centra
- enfoque
- encontrado
- freelance
- en
- promover
- Género
- candidato
- graduados
- Grupo
- guía
- mano
- Tienen
- es
- ayuda
- ayudando
- ayuda
- Oculto
- Esconder
- Alta
- mantener
- Cómo
- Como Hacer
- Sin embargo
- HTTPS
- humana
- imagen
- implementación
- implicaciones
- importancia
- mejorar
- in
- información
- posiblemente
- penetración
- Insights
- Intelligence
- interesado
- introducir
- Introducido
- intuición
- IT
- SUS
- jpg
- nuggets
- Keen
- Saber
- especialistas
- conocido
- Falta
- pleito
- aprendiz
- aprendizaje
- ingenieros de aprendizaje
- Nivel
- Vida
- limitaciones
- Limitada
- Etiqueta LinkedIn
- longevidad
- Mira
- mirando
- Lote
- Baja
- máquina
- máquina de aprendizaje
- para lograr
- gerente
- significa
- más,
- nombre
- naturalmente
- ¿ Necesita ayuda
- of
- on
- ONE
- abre
- Del Mañana
- opuesto
- Otro
- Otros
- salida
- total
- Paradoja
- particularmente
- .
- porcentaje
- realizar
- períodos
- Peter
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Popular
- preparado
- presente
- Problema
- profesionales
- proyecto
- proyecta
- Demuestra
- proporcionando
- poner
- real
- mundo real
- en tiempo real
- datos en tiempo real
- Realidad
- restante
- representación
- Requisitos
- restringiendo
- Inversión
- marcha atrás
- una estrategia SEO para aparecer en las búsquedas de Google.
- Subir
- s
- mismo
- escenarios
- Escuela
- Ciencia:
- Científico
- los científicos
- ver
- la búsqueda de
- Varios
- En Corto
- Shows
- importante
- escépticos
- habilidad
- habilidades
- menores
- Soft
- Pronto
- soluciones y
- pasar
- comienzo
- estadístico
- Historia
- ESTUDIO
- tal
- suficiente
- ¡Prepárate!
- toma
- equipo
- equipos
- tecnología
- Técnico
- esa
- El
- la información
- su
- sí mismos
- por lo tanto
- Estas
- cosa
- Ideas
- a fondo
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- a
- demasiado
- Tendencia
- Tendencias
- verdadero
- Tutoriales
- subyacente
- entender
- comprensión
- us
- utilizan el
- las variables
- Camino..
- formas
- ¿
- que
- Aunque que la
- Wikipedia
- seguirá
- deseos
- sin
- Mujeres
- trabajando
- mundo
- se
- escritor
- la escritura
- Mal
- año
- tú
- a ti mismo
- zephyrnet