작성자 별 이미지
데이터 과학자, 데이터 엔지니어 및 기계 학습 엔지니어는 데이터를 살펴보고 데이터에서 통계 도면이나 결론을 찾는 데 많은 시간을 보냅니다. 그러나 이러한 전문가와 데이터를 보는 모든 사람에게 필요한 기술인 중요한 것은 현실 세계에 대한 좋은 직관력을 갖는 것입니다.
데이터에는 고려할 수 있는 여러 변수가 있지만 유한 차원 표현을 생성한다는 점에 유의하는 것이 좋습니다. 여기에서 데이터 너머를 보고 숨겨진 현실이 무엇이며 데이터 세트에 어떻게 적용할 수 있는지 파악해야 합니다.
Simpson의 역설은 데이터를 해석할 때 회의적이어야 하고 데이터 관점에서 보는 것을 제한하지 않고 현실 세계를 적용하는 것이 중요하다는 것을 증명합니다.
1972년 Colin R. Blyth는 Simpson의 반전, Yule-Simpson 효과, 융합 역설 또는 반전 역설로도 알려진 Simpson의 역설이라는 이름을 도입했습니다.
Simpson's Paradox는 데이터가 결합될 때 반전되거나 사라지는 그룹에 데이터를 넣을 때 추세 또는 출력이 나타나는 경우입니다. 데이터를 그룹화하는 방법에 따라 동일한 데이터에서 두 가지 상반된 결론을 도출할 수 있는 통계적 역설입니다.
UC 버클리와 심슨의 역설
Simpson의 역설의 인기 있는 예는 대학원 입학에서 성 편견에 관한 UC Berkeley의 연구입니다. 1973년 학년 초에 UC Berkeley의 대학원은 약 44%의 남성 지원자와 35%의 여성 지원자를 받아들였습니다. 학교는 소송에 휘말릴 것을 두려워하여 통계학자인 Peter Bickel에게 데이터를 보도록 요청하여 이에 대비했습니다.
그가 알아낸 것은 4/6 부서에서 여성을 선호하는 통계적으로 유의미한 성별 편향이 있었고 나머지 2개에서는 유의미한 성별 편향이 없었다는 것입니다. 지원자의 비율이 적습니다.
심슨의 패러독스에서는 감춰질 수 있고 데이터를 통해 쉽게 해석할 수 없는 실제 시나리오와 변수를 고려해야 합니다. 이 예에서 숨겨진 변수는 더 많은 여성이 특정 부서에 지원했다는 것입니다. 이것은 처음에 데이터에 존재했던 반대 경향을 보여주는 방식으로 수락된 지원자의 전체 비율에 영향을 미칩니다.
그런 다음 팀은 학교를 부서로 나눌 때 데이터를 고려했을 때 데이터에 대한 출력이 변경되었다고 결론지었습니다.
아래 이미지는 데이터를 그룹화할 때 추세가 반전되는 방식을 설명합니다.
이미지로 위키 백과
Simpson의 역설은 데이터 작업을 더 복잡하게 만들고 의사 결정 프로세스를 훨씬 더 어렵게 만들 수 있습니다.
데이터를 다르게 리샘플링하기 시작하면 다른 결론을 얻게 됩니다. 이렇게 하면 추가 통찰력을 얻기 위해 하나의 정확한 결론을 선택하기가 자연스럽게 더 어려워집니다. 이는 팀이 데이터를 공정하게 나타내는 최상의 결론을 찾아야 함을 의미합니다.
데이터 관련 프로젝트로 작업할 때 우리는 종종 데이터에 집중하고 그것이 우리에게 말하려는 이야기를 해석하려고 합니다. 그러나 실제 지식을 적용하면 완전히 다른 이야기를 들려줄 것입니다.
이것의 중요성을 이해하면 데이터를 더 깊이 들여다보고 의사 결정 프로세스에 도움이 되는 충분한 분석을 수행할 수 있는 더 많은 기회가 열립니다. Simpson's Paradox는 충분한 분석 통찰력과 전반적인 프로젝트 지식의 부족이 어떻게 우리를 오도하고 잘못된 결정을 내릴 수 있는지에 초점을 맞춥니다.
예를 들어 실시간 데이터 분석 사용이 증가하고 있습니다. 점점 더 많은 팀이 이를 구현하여 패턴을 감지하고 이 통찰력을 사용하여 단기간에 결정을 내리고 있습니다. 실시간 데이터 분석 작업은 현재 실시간 데이터를 기반으로 회사를 개선하는 방법에 집중할 때 효과적입니다. 그러나 이러한 짧은 기간은 오해의 소지가 있는 정보를 유발하고 데이터가 보여주는 전반적인 실제 추세를 숨길 수 있습니다.
잘못된 데이터 분석은 회사를 방해할 수 있습니다. 그리고 우리 모두는 잘못된 결정이 항상 회사의 발목을 잡는다는 것을 알고 있습니다. 따라서 Simpson의 역설을 고려하면 회사가 데이터의 한계, 데이터를 구동하는 요소 및 다양한 변수를 이해하고 편견을 낮게 유지하는 데 도움이 됩니다.
심슨의 역설은 데이터로 작업하는 전문가에게 데이터 이해의 중요성과 데이터 직관 수준을 상기시키는 데 도움이 됩니다. 비판적 사고와 같은 많은 데이터 전문가의 소프트 스킬이 나타날 때입니다.
목표는 데이터에 존재하는 숨겨진 편향과 변수를 찾는 것인데, 이는 처음 보거나 고도의 분석을 수행했을 때 쉽게 발견되지 않을 수 있습니다.
Simpson의 역설에 대해 고려해야 할 한 가지는 너무 많은 데이터 집계가 곧 쓸모없게 되어 편향을 도입하기 시작할 수 있다는 것입니다. 그러나 반면에 데이터를 집계하지 않으면 데이터가 알려주는 정보와 기본 패턴이 제한될 수 있습니다.
Simpson의 역설을 피하려면 데이터를 철저히 검토하고 당면한 비즈니스 문제를 잘 이해하고 있는지 확인해야 합니다.
니샤 아리아 KDnuggets의 데이터 과학자, 프리랜서 기술 작가 및 커뮤니티 관리자입니다. 그녀는 특히 데이터 과학 경력 조언 또는 데이터 과학에 대한 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방식을 탐구하고자 합니다. 기술 지식과 작문 기술을 넓히고 다른 사람을 안내하는 데 도움을 주고자 하는 예리한 학습자.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :이다
- $UP
- 35%
- a
- 소개
- 학술
- 접수
- 계정
- 정확한
- 인정 된
- 조언
- 반대
- 집합
- All
- 항상
- 분석
- 분석
- 분석
- 과
- 누군가
- 어플리케이션
- 적용된
- 신청
- 적용
- 있군요
- 약
- 인조의
- 인공 지능
- AS
- At
- 피하기
- 뒤로
- 기반으로
- BE
- 가
- 존재
- 이하
- 이익
- 혜택
- 버클리
- BEST
- 그 너머
- 바이어스
- 큰
- 넓히다
- 사업
- by
- CAN
- 채용
- 원인
- 왼쪽 메뉴에서
- 결합 된
- 왔다
- 커뮤니티
- 회사
- 완전히
- 복잡한
- 결론
- 결론
- 고려
- 임계
- Current
- 데이터
- 데이터 분석
- 데이터 분석
- 데이터 과학
- 데이터 과학자
- 의사 결정
- 결정
- 깊이
- 학과
- 부서
- 의존
- 다른
- 사라지다
- 말라
- 도면
- 용이하게
- 효과
- 유효한
- 중
- 엔지니어
- 확인
- 보장
- 예
- 설명
- 탐험
- 공정한
- 선호
- 여자
- 그림
- Find
- 발견
- 먼저,
- 먼저보세요
- 집중
- 집중
- 초점
- 럭셔리
- 발견
- 자유 계약의
- 에
- 추가
- 성별
- 좋은
- 졸업
- 여러 떼
- 안내
- 손
- 있다
- 데
- 도움
- 도움이
- 도움이
- 숨겨진
- 숨는 장소
- 높은
- 보유
- 방법
- How To
- 그러나
- HTTPS
- 사람의
- 영상
- 구현
- 의미
- 중요성
- 개선
- in
- 정보
- 처음에는
- 통찰력
- 통찰력
- 인텔리전스
- 관심있는
- 소개
- 소개
- 직관
- IT
- 그
- JPG
- 너 겟츠
- 날카로운
- 알아
- 지식
- 알려진
- 결핍
- 소송
- 학습자
- 배우기
- 학습 엔지니어
- 레벨
- 생활
- 한계
- 제한된
- 링크드인
- 장수
- 보기
- 찾고
- 롯
- 낮은
- 기계
- 기계 학습
- 확인
- 매니저
- 방법
- 배우기
- name
- 자연히
- 필요
- of
- on
- ONE
- 열립니다
- 기회
- 반대
- 기타
- 기타
- 출력
- 전체
- 역설
- 특별히
- 패턴
- tỷ lệ phần trăm
- 수행
- 미문
- 베드로
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 인기 문서
- 준비
- 제시
- 문제
- 방법
- 전문가
- 프로젝트
- 프로젝트
- 증명하다
- 제공
- 놓다
- 현실
- 현실 세계
- 실시간
- 실시간 데이터
- 현실
- 나머지
- 대표
- 필수
- 제한
- 반전
- 역
- 리뷰
- 상승
- s
- 같은
- 시나리오
- 학교
- 과학
- 과학자
- 과학자
- 보고
- 모색
- 몇몇의
- 짧은
- 쇼
- 상당한
- 회의적인
- 기술
- 기술
- 작은
- 부드러움
- 예정입니다.
- 구체적인
- 지출
- 스타트
- 통계적인
- 이야기
- 교육과정
- 이러한
- 충분한
- 받아
- 복용
- 팀
- 팀
- 기술
- 테크니컬
- 그
- XNUMXD덴탈의
- 정보
- 그들의
- 그들 자신
- 따라서
- Bowman의
- 맡은 일
- 사고력
- 완전히
- 을 통하여
- 시간
- 에
- 너무
- 경향
- 트렌드
- 참된
- 자습서
- 밑에 있는
- 이해
- 이해
- us
- 사용
- 변수
- 방법..
- 방법
- 뭐
- 어느
- 하는 동안
- 위키 백과
- 의지
- 소원
- 과
- 없이
- 여성 컬렉션
- 일하는
- 세계
- 겠지
- 작가
- 쓰기
- 잘못된
- year
- 너의
- 당신 자신
- 제퍼 넷