Imagem do autor
Cientistas de dados, engenheiros de dados e engenheiros de aprendizado de máquina passam muito tempo analisando dados e encontrando desenhos estatísticos ou conclusões a partir deles. Mas uma grande coisa que é uma habilidade necessária para esses profissionais e qualquer um que esteja olhando para os dados é ter uma boa intuição para o mundo real.
Os dados possuem diversas variáveis que você pode levar em consideração, porém, é bom observar que ele produz uma representação de dimensão finita. É aqui que você terá que ver além dos dados e descobrir qual é a realidade oculta e como ela pode ser aplicada ao conjunto de dados.
O paradoxo de Simpson nos prova a importância de ser cético ao interpretar seus dados e garantir que você aplique o mundo real – sem se restringir de vê-lo do ponto de vista dos dados.
Em 1972, Colin R. Blyth introduziu o nome paradoxo de Simpson, também conhecido como reversão de Simpson, efeito Yule-Simpson, paradoxo de amálgama ou paradoxo de reversão.
O Paradoxo de Simpson ocorre quando uma tendência ou saída está presente quando os dados são colocados em grupos que se invertem ou desaparecem quando os dados são combinados. É um paradoxo estatístico onde se pode tirar duas conclusões opostas dos mesmos dados, dependendo de como os dados são agrupados.
UC Berkeley e o paradoxo de Simpson
Um exemplo popular do paradoxo de Simpson é o estudo da UC Berkeley sobre preconceito de gênero nas admissões em escolas de pós-graduação. Em 1973, no início do ano acadêmico, a escola de pós-graduação da UC Berkeley admitiu cerca de 44% de inscrições masculinas e 35% de candidatas femininas. A escola temia estar enfrentando um processo, portanto se preparou para isso pedindo a Peter Bickel, um estatístico, para dar uma olhada nos dados.
O que ele descobriu foi que havia um viés de gênero estatisticamente significativo a favor das mulheres em 4/6 departamentos, e que não havia viés de gênero significativo nos 2 restantes. porcentagem menor de candidatos.
No Paradoxo de Simpson, você precisa levar em consideração cenários e variáveis do mundo real que podem ser ocultados e não facilmente interpretados por meio de dados. Neste exemplo, a variável oculta é que mais mulheres estavam se candidatando a um departamento específico. Isso afeta a porcentagem geral de candidatos aceitos, de forma que mostra a tendência inversa que existia inicialmente nos dados.
A equipe concluiu então que a produção dos dados mudou quando eles os levaram em consideração ao dividir a escola em departamentos.
A imagem abaixo explica como as tendências se invertem quando os dados são agrupados:
Imagem por Wikipedia
O paradoxo de Simpson pode tornar o trabalho com dados mais complexo e dificultar muito o processo de tomada de decisão.
Se você começar a reamostrar seus dados de maneira diferente, chegará a conclusões diferentes. Isso naturalmente tornará mais difícil para você escolher uma conclusão precisa específica para obter mais informações. Isso significa que a equipe terá que encontrar a melhor conclusão que tenha uma representação justa dos dados.
Ao trabalhar com projetos relacionados a dados, geralmente nos concentramos nos dados e tentamos interpretar a história que eles estão tentando nos contar. Mas se aplicarmos o conhecimento do mundo real, isso nos contará uma história completamente diferente.
Entender a importância disso abre mais oportunidades para olharmos mais profundamente os dados e realizar análises suficientes para ajudar no processo de tomada de decisão. O Paradoxo de Simpson se concentra em como a falta de percepção analítica suficiente e conhecimento geral do projeto pode nos enganar e tomar decisões erradas.
Por exemplo, estamos vendo um aumento no uso de análise de dados em tempo real. Mais e mais equipes estão implementando isso para ajudar a detectar padrões e usar esse insight para tomar decisões em curtos períodos. Trabalhar com análise de dados em tempo real é eficaz quando você se concentra em como melhorar uma empresa com base nos dados atuais em tempo real. No entanto, esses curtos períodos podem causar informações enganosas e ocultar a verdadeira tendência geral que os dados mostram.
A análise de dados errada pode atrasar uma empresa. E todos nós sabemos que decisões erradas sempre atrasam uma empresa. Portanto, levar em consideração o paradoxo de Simpson beneficia a empresa para entender as limitações dos dados, o que impulsiona os dados e as diferentes variáveis e mantém o viés baixo.
O Paradoxo de Simpson ajuda a lembrar os profissionais que trabalham com dados sobre a importância de compreender os dados e seu nível de intuição de dados. É nesse momento que muitas soft skills dos profissionais de dados se apresentarão, como o pensamento crítico.
O objetivo é procurar vieses e variáveis ocultas presentes nos dados, que podem não ser facilmente detectáveis à primeira vista ou quando uma alta análise foi realizada.
Uma coisa a levar em consideração sobre o paradoxo de Simpson é que muita agregação de dados pode se tornar inútil em breve e começar a introduzir viés. Mas, por outro lado, se não agregarmos os dados, eles podem ser limitados nas informações e nos padrões subjacentes que podem nos fornecer.
Para evitar o paradoxo de Simpson, você precisará revisar seus dados minuciosamente e garantir um bom entendimento do problema de negócios em questão.
Nisha Arya é cientista de dados, redator técnico freelancer e gerente de comunidade da KDnuggets. Ela está particularmente interessada em fornecer conselhos ou tutoriais de carreira em Ciência de Dados e conhecimento baseado em teoria sobre Ciência de Dados. Ela também deseja explorar as diferentes maneiras pelas quais a Inteligência Artificial é/pode beneficiar a longevidade da vida humana. Uma aluna interessada, buscando ampliar seus conhecimentos técnicos e habilidades de escrita, ao mesmo tempo em que ajuda a orientar outras pessoas.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :é
- $UP
- 35%
- a
- Sobre
- acadêmico
- aceito
- Conta
- preciso
- admitiu
- conselho
- contra
- agregação
- Todos os Produtos
- sempre
- análise
- Análises
- analítica
- e
- qualquer um
- aplicações
- aplicado
- Aplicar
- Aplicando
- SOMOS
- por aí
- artificial
- inteligência artificial
- AS
- At
- evitar
- em caminho duplo
- baseado
- BE
- tornam-se
- ser
- abaixo
- beneficiar
- Benefícios
- Berkeley
- MELHOR
- Pós
- viés
- Grande
- ampliar
- negócio
- by
- CAN
- Oportunidades
- Causar
- Escolha
- combinado
- como
- comunidade
- Empresa
- completamente
- integrações
- Concluído
- conclusão
- consideração
- crítico
- Atual
- dados,
- análise de dados
- Análise de Dados
- ciência de dados
- cientista de dados
- Tomada de Decisão
- decisões
- mais profunda
- Departamento
- departamentos
- Dependendo
- diferente
- desaparecer
- não
- Desenhos
- facilmente
- efeito
- Eficaz
- ou
- Engenheiros
- garantir
- assegurando
- exemplo
- Explica
- explorar
- feira
- favorecer
- feminina
- Figura
- Encontre
- descoberta
- Primeiro nome
- Primeiro Olhar
- focado
- concentra-se
- focando
- Escolha
- encontrado
- freelance
- da
- mais distante
- Gênero
- Bom estado, com sinais de uso
- pós-graduação
- Do grupo
- guia
- mão
- Ter
- ter
- ajudar
- ajuda
- ajuda
- oculto
- Esconder
- Alta
- segurar
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTTPS
- humano
- imagem
- implementação
- implicações
- importância
- melhorar
- in
- INFORMAÇÕES
- inicialmente
- introspecção
- insights
- Inteligência
- interessado
- introduzir
- introduzido
- intuição
- IT
- ESTÁ
- jpg
- KDnuggetsGenericName
- Afiado
- Saber
- Conhecimento
- conhecido
- Falta
- ação judicial
- aprendiz
- aprendizagem
- engenheiros de aprendizagem
- Nível
- vida
- limitações
- Limitado
- longevidade
- olhar
- procurando
- lote
- Baixo
- máquina
- aprendizado de máquina
- fazer
- Gerente
- significa
- mais
- nome
- naturalmente
- você merece...
- of
- on
- ONE
- abre
- oportunidades
- oposto
- Outros
- Outros
- saída
- global
- Paradoxo
- particularmente
- padrões
- percentagem
- realizar
- períodos
- Peter
- platão
- Inteligência de Dados Platão
- PlatãoData
- Popular
- preparado
- presente
- Problema
- processo
- projeto
- projetos
- Prova
- fornecendo
- colocar
- reais
- mundo real
- em tempo real
- dados em tempo real
- Realidade
- remanescente
- representação
- requeridos
- restringindo
- Reversão
- reverso
- rever
- Subir
- s
- mesmo
- cenários
- Escola
- Ciência
- Cientista
- cientistas
- visto
- busca
- vários
- Baixo
- Shows
- periodo
- cético
- habilidade
- Habilidades
- menor
- Suave
- Em breve
- específico
- gastar
- começo
- estatístico
- História
- Estudo
- tal
- suficiente
- Tire
- tomar
- Profissionais
- equipes
- tecnologia
- Dados Técnicos:
- que
- A
- as informações
- deles
- si mesmos
- assim sendo
- Este
- coisa
- Pensando
- completamente
- Através da
- tempo
- para
- também
- Trend
- Tendências
- verdadeiro
- tutoriais
- subjacente
- compreender
- compreensão
- us
- usar
- variáveis
- Caminho..
- maneiras
- O Quê
- qual
- Enquanto
- Wikipedia
- precisarão
- desejos
- com
- sem
- Mulher
- trabalhar
- mundo
- seria
- escritor
- escrita
- Errado
- ano
- investimentos
- você mesmo
- zefirnet