오늘날 수십만 명의 고객이 분석 및 기계 학습을 위해 데이터 레이크를 사용합니다. 그러나 데이터 엔지니어는 이 데이터를 사용하기 전에 정리하고 준비해야 합니다. 고객이 자신 있는 비즈니스 결정을 내리려면 기본 데이터가 정확하고 최신이어야 합니다. 그렇지 않으면 데이터 소비자가 데이터에 대한 신뢰를 잃고 최적이 아니거나 잘못된 결정을 내릴 수 있습니다. 데이터 엔지니어가 데이터가 정확하고 최신인지 여부를 평가하는 것은 일반적인 작업입니다. 오늘날 다양한 데이터 품질 도구가 있습니다. 그러나 일반적인 데이터 품질 도구는 일반적으로 데이터 품질을 모니터링하기 위해 수동 프로세스가 필요합니다.
AWS Glue 데이터 품질은 미리 보기 기능입니다. AWS 접착제 데이터 품질을 측정하고 모니터링하는 아마존 단순 스토리지 서비스 (Amazon S3) 데이터 레이크 및 AWS Glue 추출, 변환 및 로드(ETL) 작업. 이것은 열린 미리보기 기능이므로 계정에서 이미 활성화되어 있습니다. 사용 가능한 지역. 코드를 작성하지 않고도 AWS Glue Studio 콘솔에서 데이터 품질 검사를 쉽게 정의하고 측정할 수 있습니다. 데이터 품질 관리 경험을 단순화합니다.
이 게시물은 AWS Glue 데이터 품질의 작동 방식을 설명하는 2개의 게시물 시리즈 중 XNUMX부입니다. 이 시리즈의 이전 게시물을 확인하세요.
이 게시물에서는 데이터 파이프라인의 데이터 품질을 측정하고 모니터링하는 AWS Glue 작업을 생성하는 방법을 보여줍니다. 또한 데이터 품질 결과에 따라 조치를 취하는 방법도 보여줍니다.
솔루션 개요
데이터 엔지니어가 원시 영역에서 데이터 레이크의 큐레이트된 영역으로 데이터를 수집하기 위해 데이터 파이프라인을 구축해야 하는 사용 사례의 예를 고려해 보겠습니다. 데이터 엔지니어로서 데이터 추출, 변환 및 로드와 함께 주요 책임 중 하나는 데이터 품질을 검증하는 것입니다. 데이터 품질 문제를 미리 식별하면 잘못된 데이터가 선별된 영역에 배치되는 것을 방지하고 힘든 데이터 손상 사고를 방지할 수 있습니다.
이 게시물에서는 쉽게 설정하는 방법을 배웁니다. 내장 과 관습 불량 데이터가 다운스트림 고품질 데이터를 손상시키지 않도록 AWS Glue 작업에서 데이터 유효성 검사를 확인합니다.
이 게시물에 사용된 데이터 세트는 종합적으로 생성됩니다. 다음 스크린샷은 데이터의 예를 보여줍니다.
AWS CloudFormation으로 리소스 설정
이 게시물에는 AWS 클라우드 포메이션 빠른 설정을 위한 템플릿입니다. 필요에 맞게 검토하고 사용자 지정할 수 있습니다.
CloudFormation 템플릿은 다음 리소스를 생성합니다.
- Amazon Simple Storage Service(Amazon S3) 버킷(
gluedataqualitystudio-*
). - S3 버킷의 다음 접두사 및 객체:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS 자격 증명 및 액세스 관리 (IAM) 사용자, 역할 및 정책. IAM 역할(
GlueDataQualityStudio-*
) S3 버킷에서 읽고 쓸 수 있는 권한이 있습니다. - AWS 람다 이 스택을 생성하고 삭제하기 위해 이러한 기능에 필요한 기능 및 IAM 정책.
자원을 작성하려면 다음 단계를 완료하십시오.
- 에 로그인 AWS CloudFormation 콘솔 FBI 증오 범죄 보고서
us-east-1
부위. - 왼쪽 메뉴에서 발사 스택:
- 선택 AWS CloudFormation이 IAM 리소스를 생성 할 수 있음을 인정합니다.
- 왼쪽 메뉴에서 스택 생성 스택 생성 단계가 완료될 때까지 기다립니다.
솔루션 구현
솔루션 구성을 시작하려면 다음 단계를 완료하십시오.
- 에 AWS Glue 스튜디오 콘솔선택한다.
작업 탐색 창에서
- 선택 빈 캔버스가 있는 시각적 개체 선택하고 만들기.
- 선택 작업 세부 정보 탭을 클릭하여 작업을 구성합니다.
- 럭셔리 성함, 입력
GlueDataQualityStudio
. - 럭셔리 IAM 역할로 시작하는 역할을 선택하십시오.
GlueDataQualityStudio-*
. - 럭셔리 접착제 버전선택한다.
접착제 3.0.
- 럭셔리 작업 북마크선택한다. 사용 안 함. 이렇게 하면 동일한 입력 데이터 세트로 이 작업을 여러 번 실행할 수 있습니다.
- 럭셔리 재시도 횟수, 입력
0
. - . 고급 속성 섹션에서 CloudFormation 템플릿으로 생성된 S3 버킷을 제공합니다(
gluedataqualitystudio-*
). - 왼쪽 메뉴에서 찜하기.
- 작업을 저장한 후 다음을 선택합니다. 시각 탭과 출처 메뉴, 선택 아마존 S3.
- 에 데이터 소스 속성 – S3 탭, S3 소스 유형, 고르다 S3 위치.
- 왼쪽 메뉴에서 S3 찾아보기 접두사로 이동
/datalake/raw/customer/
로 시작하는 S3 버킷에서gluedataqualitystudio-*
. - 왼쪽 메뉴에서 스키마 추론.
- 에 동작 메뉴, 선택 데이터 품질 평가.
- 선택 데이터 품질 평가 마디.
에 변환 탭에서 이제 데이터 품질 규칙 작성을 시작할 수 있습니다. 생성하는 첫 번째 규칙은 다음을 확인하는 것입니다.Customer_ID
고유하고 null이 아닙니다.isPrimaryKey
규칙. - 에 규칙 유형 탭 DQDL 규칙 빌더, 검색
isprimarykey
더하기 기호를 선택합니다. - 에 개요 탭 DQDL 규칙 빌더, 옆에 있는 더하기 기호를 선택합니다.
Customer_ID
. - 규칙 편집기에서 삭제
id
.
우리가 추가하는 다음 규칙은First_Name
열 값은 모든 행에 대해 존재합니다. - 규칙 편집기에서 직접 데이터 품질 규칙을 입력할 수도 있습니다. 쉼표(,)를 추가하고 입력
IsComplete "First_Name",
첫 번째 규칙 이후.
다음으로 사용자 지정 규칙을 추가하여 없이 행이 존재하지 않는지 확인합니다.Telephone
orEmail
. - 규칙 편집기에 다음 사용자 지정 규칙을 입력합니다.
- 이 게시물의 경우 데이터 품질 실패 시 작업 실패 선택하고 대상을 로드하지 않고 작업 실패 데이터 행위. 에서 데이터 품질 출력 설정 섹션 선택 S3 찾아보기 접두사로 이동
dqresults
로 시작하는 S3 버킷에서gluedataqualitystudio-*
. - 에 목표 메뉴, 선택 아마존 S3.
- 선택 데이터 대상 – S3 버킷 마디.
- 에 데이터 대상 속성 – S3 탭, 형성선택한다. 나무 마루로등에 대한 압축 유형선택한다. 팔팔한.
- 럭셔리 S3 대상 위치선택한다.
S3 찾아보기 접두사로 이동
/datalake/curated/customer/
로 시작하는 S3 버킷에서gluedataqualitystudio-*
. - 왼쪽 메뉴에서 찜하기다음을 선택 달리기.
실행 탭에서 작업 실행 세부 정보를 볼 수 있습니다. 이 예에서는 “AssertionError: 노드에 대한 DQ 규칙 실패로 인해 작업이 실패했습니다.”라는 오류 메시지와 함께 작업이 실패합니다. .”
데이터 품질 탭에서 데이터 품질 결과를 검토할 수 있습니다. 이 예에서는 데이터세트의 행 중 하나에Telephone
orEmail
값.데이터 품질 평가 결과는 노드의 데이터 품질 결과 위치 매개변수를 기반으로 JSON 형식으로 S3 버킷에도 기록됩니다. - 로 이동
dqresults
S3 버킷 시작 아래의 접두사gluedataqualitystudio-*
. 데이터 품질 결과가 날짜별로 분할된 것을 볼 수 있습니다.
다음은 JSON 파일의 출력입니다. 이 파일 출력을 사용하여 사용자 정의 데이터 품질 시각화 대시보드를 작성할 수 있습니다.
다음을 모니터링할 수도 있습니다. 데이터 품질 평가 통해 노드 아마존 클라우드 워치 데이터 품질 결과에 대한 알림을 보내도록 지표를 설정하고 경보를 설정합니다. CloudWatch 경보를 설정하는 방법에 대한 자세한 내용은 다음을 참조하십시오. Amazon CloudWatch 경보 사용.
정리
향후 비용 발생을 방지하고 사용하지 않는 역할 및 정책을 정리하려면 생성한 리소스를 삭제합니다.
- 삭제
GlueDataQualityStudio
이 게시물의 일부로 만든 작업. - AWS CloudFormation 콘솔에서 다음을 삭제합니다.
GlueDataQualityStudio
스택.
결론
AWS Glue 데이터 품질은 ETL 파이프라인의 데이터 품질을 측정하고 모니터링하는 손쉬운 방법을 제공합니다. 이 게시물에서는 높은 데이터 표준을 유지하고 자신감 있는 비즈니스 결정을 내리는 데 도움이 되는 데이터 품질 결과를 기반으로 필요한 조치를 취하는 방법을 배웠습니다.
AWS Glue 데이터 품질에 대해 자세히 알아보려면 다음 문서를 확인하십시오.
저자에 관하여
딘반두 프라사드 빅 데이터 서비스를 전문으로 하는 AWS의 선임 분석 전문가입니다. 그는 고객이 AWS 클라우드에서 최신 데이터 아키텍처를 구축하도록 돕는 일에 열정적입니다. 그는 모든 규모의 고객이 데이터 관리, 데이터 웨어하우스 및 데이터 레이크 솔루션을 구현하도록 도왔습니다.
야니스 멘테키디스 AWS Glue 팀의 선임 소프트웨어 개발 엔지니어입니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- 소개
- ACCESS
- 계정
- 정확한
- 인정
- 동작
- 행위
- 후
- All
- 수
- 이미
- 아마존
- 분석
- 과
- 아키텍처
- AWS
- AWS 클라우드 포메이션
- AWS 접착제
- 나쁜
- 나쁜 데이터
- 기반으로
- 때문에
- 전에
- 큰
- 빅 데이터
- 빌드
- 건물
- 사업
- 케이스
- 요금
- 검사
- 확인하는 것이 좋다.
- 왼쪽 메뉴에서
- 클라우드
- 단
- 공통의
- 완전한
- 자신감
- 고려
- 콘솔에서
- 소비자
- 부패
- 만들
- 만든
- 창조
- 기획
- 관습
- 고객
- 고객
- 사용자 정의
- 데이터
- 데이터 레이크
- 데이터 관리
- 날짜
- 결정
- 세부설명
- 개발
- 직접
- 선적 서류 비치
- 용이하게
- 편집자
- 이메일
- 기사
- 엔지니어
- 엔터 버튼
- 오류
- 에테르 (ETH)
- 평가
- 예
- 존재
- 경험
- 설명
- 추출물
- 실패한
- 실패
- 특색
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 먼저,
- 수행원
- 체재
- 에
- 기능
- 미래
- 생성
- 생성
- 점점
- 도움
- 도움이
- 도움이
- 높은
- 높은 품질의
- 방법
- How To
- 그러나
- HTML
- HTTPS
- 수백
- 식별
- 통합 인증
- 구현
- in
- 포함
- 입력
- 문제
- IT
- 일
- 작업
- JSON
- 키
- 소금물
- 배우다
- 배운
- 배우기
- 하중
- 로드
- 위치
- 잃다
- 기계
- 기계 학습
- 유지하다
- 확인
- 관리
- 구축
- 관리
- 조작
- 측정
- 조치들
- 메뉴
- 메시지
- 통계
- 수도
- 현대
- 모니터
- 모니터
- 배우기
- 여러
- 이동
- 카테고리
- 필요한
- 요구
- 다음 것
- 노드
- 알림
- 사물
- 제공
- ONE
- 열 수
- 그렇지 않으면
- 빵
- 매개 변수
- 부품
- 열렬한
- 허가
- 관로
- 자본 매출
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- ...을 더한
- 정책
- 게시하다
- Prepare
- 제시
- 예방
- 시사
- 너무 이른
- 일차
- 프로세스
- 속성
- 제공
- 제공
- 품질
- 빠른
- 살갗이 벗어 진
- 읽기
- 최근
- 지방
- 필요
- 필수
- 자료
- 결과
- 결과
- 리뷰
- 직위별
- 역할
- 열
- 통치
- 규칙
- 달리기
- 같은
- 검색
- 섹션
- 연속
- 서비스
- 서비스
- 세트
- 설정
- 설치
- 표시
- 쇼
- 기호
- 단순, 간단, 편리
- 크기
- So
- 소프트웨어
- 소프트웨어 개발
- 해결책
- 솔루션
- 출처
- 전문가
- 전문
- 스택
- 기준
- 스타트
- 시작
- 시작 중
- 단계
- 단계
- 저장
- 스튜디오
- 소송
- 종합적으로
- 받아
- 목표
- 태스크
- 팀
- 이 템플릿
- XNUMXD덴탈의
- 수천
- 을 통하여
- 시대
- 에
- 오늘
- 검색을
- 변환
- 변화
- 믿어
- 아래에
- 밑에 있는
- 유일한
- 미사용의
- 사용
- 유스 케이스
- 사용자
- 보통
- 유효 기간
- 확인
- 가치
- 여러
- 관측
- 심상
- 기다리다
- 여부
- 어느
- 의지
- 없이
- 일
- 쓰다
- 쓰기
- 쓴
- 너의
- 제퍼 넷