기업은 의사 결정, 보고, 머신 러닝(ML)과 같은 프로세스를 추진하기 위해 매일 점점 더 많은 데이터를 수집합니다. 데이터를 정리하고 변환하기 전에 데이터가 사용하기에 적합한지 여부를 결정해야 합니다. 부정확하거나, 누락되거나, 형식이 잘못된 데이터는 다운스트림 분석 및 ML 프로세스에 큰 영향을 미칠 수 있습니다. 데이터 품질 검사를 수행하면 워크플로 초기에 문제를 식별하여 더 빠르게 해결할 수 있습니다. 또한 이벤트 기반 아키텍처를 사용하여 이러한 검사를 수행하면 수동 터치포인트를 줄이고 증가하는 데이터 양에 따라 확장할 수 있습니다.
AWS 글루 데이터브루 데이터의 중복 값, 결측값 및 이상값과 같은 데이터 품질 통계를 쉽게 찾을 수 있는 시각적 데이터 준비 도구입니다. 또한 DataBrew에서 데이터 품질 규칙을 설정하여 고유한 비즈니스 요구 사항에 따라 조건부 검사를 수행할 수 있습니다. 예를 들어, 제조업체는 구체적으로 중복 값이 없는지 확인해야 할 수 있습니다. Part ID
열 또는 의료 제공자가 다음 값을 확인할 수 있습니다. SSN
열은 특정 길이입니다. DataBrew로 이러한 규칙을 생성하고 검증한 후 다음을 사용할 수 있습니다. 아마존 이벤트 브리지, AWS 단계 함수, AWS 람다및 아마존 단순 알림 서비스 (Amazon SNS) 자동화된 워크플로를 생성하고 규칙이 유효성 검사에 실패할 때 알림을 보냅니다.
이 게시물에서는 종단 간 워크플로와 이 솔루션을 구현하는 방법을 안내합니다. 이 게시물에는 단계별 자습서가 포함되어 있습니다. AWS 서버리스 애플리케이션 모델 (AWS SAM) 템플릿 및 자체 AWS 환경에서 애플리케이션을 배포하는 데 사용할 수 있는 예제 코드.
솔루션 개요
이 게시물의 솔루션은 다음을 결합합니다. 서버리스 데이터 품질 검증을 위해 완전히 자동화된 엔드 투 엔드 이벤트 중심 파이프라인을 구축하는 AWS 서비스. 다음 다이어그램은 솔루션 아키텍처를 보여줍니다.
솔루션 워크플로에는 다음 단계가 포함됩니다.
- 새 데이터를 업로드할 때 아마존 단순 스토리지 서비스 (Amazon S3) 버킷, 이벤트가 EventBridge로 전송됩니다.
- EventBridge 규칙은 실행하도록 Step Functions 상태 머신을 트리거합니다.
- 상태 머신은 데이터 품질 규칙 세트 및 규칙으로 구성된 DataBrew 프로필 작업을 시작합니다. 유사한 솔루션 구축을 고려하고 있다면 DataBrew 프로필 작업 출력 위치와 소스 데이터 S3 버킷이 고유해야 합니다. 이것은 재귀적 작업 실행을 방지합니다. 우리는 리소스를 AWS 클라우드 포메이션 고유한 S3 버킷을 생성하는 템플릿.
- Lambda 함수는 Amazon S3에서 데이터 품질 결과를 읽고 상태 시스템에 부울 응답을 반환합니다. 함수 반환
false
규칙 세트의 하나 이상의 규칙이 실패하고 반환되는 경우true
모든 규칙이 성공하면. - 부울 응답이 다음과 같을 경우
false
, 상태 시스템은 Amazon SNS로 이메일 알림을 보내고 상태 시스템은failed
상태. 부울 응답이 다음과 같을 경우true
, 상태 머신은 a로 끝납니다.succeed
상태. 이 단계에서 솔루션을 확장하여 성공 또는 실패 시 다른 작업을 실행할 수도 있습니다. 예를 들어 모든 규칙이 성공하면 EventBridge 메시지를 보내 DataBrew에서 다른 변환 작업을 트리거할 수 있습니다.
이 게시물에서는 AWS CloudFormation을 사용하여 이벤트 기반 데이터 품질 검증 솔루션의 완전한 기능을 갖춘 데모를 배포합니다. 유효한 CSV(쉼표로 구분된 값) 파일을 Amazon S3에 업로드한 다음 잘못된 CSV 파일을 업로드하여 솔루션을 테스트합니다.
단계는 다음과 같습니다.
- CloudFormation 스택을 시작하여 솔루션 리소스를 배포합니다.
- 솔루션 테스트:
- 유효한 CSV 파일을 Amazon S3에 업로드하고 데이터 품질 검증 및 Step Functions 상태 머신의 성공을 관찰하십시오.
- 잘못된 CSV 파일을 Amazon S3에 업로드하고 데이터 품질 검증 및 Step Functions 상태 머신 실패를 관찰하고 Amazon SNS에서 이메일 알림을 받습니다.
모든 샘플 코드는 GitHub 저장소.
사전 조건
이 연습에서는 다음과 같은 전제 조건이 있어야합니다.
AWS CloudFormation을 사용하여 솔루션 리소스 배포
CloudFormation 스택을 사용하여 이벤트 기반 데이터 품질 검증 솔루션에 필요한 리소스를 배포합니다. 스택에는 DataBrew의 예제 데이터 세트와 규칙 세트가 포함되어 있습니다.
- AWS 계정에 로그인한 다음 다음을 선택합니다. 발사 스택:
- 에 빠른 스택 생성 페이지 이메일 주소, Amazon SNS 이메일 알림에 유효한 이메일 주소를 입력합니다.
- 나머지 옵션은 기본값으로 설정된 상태로 둡니다.
- 승인 확인란을 선택합니다.
- 왼쪽 메뉴에서 스택을 만듭니다.
CloudFormation 스택에 도달하는 데 약 5분이 걸립니다. CREATE_COMPLETE
상태.
- 제공한 이메일 주소의 받은편지함을 확인하고 SNS 구독을 수락합니다.
연습이 끝날 때 이메일 알림 기능을 시연하려면 구독 확인을 검토하고 수락해야 합니다.
에 출력 스택의 탭에서 템플릿이 생성한 DataBrew 및 Step Functions 리소스를 탐색하기 위한 URL을 찾을 수 있습니다. 또한 이후 단계에서 사용하는 완료된 AWS CLI 명령을 기록해 두십시오.
당신이 AWSGlueDataBrewRuleset
값 링크를 클릭하면 다음 스크린샷과 같이 규칙 세트 세부 정보 페이지가 표시되어야 합니다. 이 연습에서는 누락된 값, 이상값 및 문자열 길이를 확인하는 세 가지 규칙을 사용하여 데이터 품질 규칙 집합을 만듭니다.
솔루션 테스트
다음 단계에서는 AWS CLI를 사용하여 CSV 파일의 올바른 버전과 잘못된 버전을 업로드하여 이벤트 기반 데이터 품질 검증 솔루션을 테스트합니다.
- 터미널 또는 명령줄 프롬프트를 열고 AWS CLI를 사용하여 샘플 데이터를 다운로드합니다. 키 이름과 함께 CloudFormation 스택 출력의 명령 사용
CommandToDownloadTestData
: - AWS CLI를 다시 사용하여 변경되지 않은 CSV 파일을 S3 버킷에 업로드합니다. 문자열 바꾸기 버킷 이름을 사용하거나 CloudFormation 템플릿 출력에서 제공된 명령을 복사하여 붙여넣습니다.
- Step Functions 콘솔에서 CloudFormation 템플릿으로 생성된 상태 머신을 찾습니다.
앞서 언급한 CloudFormation 출력에서 URL을 찾을 수 있습니다.
데이터 품질 규칙의 실패를 입증하기 위해 votes.csv
파일.
- 원하는 텍스트 편집기나 스프레드시트 도구에서 파일을 열고 하나의 셀만 삭제합니다.
다음 스크린샷에서는 Linux에서 GNU nano 편집기를 사용합니다. 스프레드시트 편집기를 사용하여 셀을 삭제할 수도 있습니다. 이로 인해 "결측값에 대한 모든 열 확인" 규칙이 실패합니다.
- 편집한 내용을 저장
votes.csv
파일을 열고 명령 프롬프트 또는 터미널로 돌아갑니다. - AWS CLI를 사용하여 S3 버킷에 파일을 한 번 더 업로드합니다. 이전과 동일한 명령을 사용합니다.
- Step Functions 콘솔에서 최신 상태 머신 실행으로 이동하여 모니터링합니다.
데이터 품질 검증이 실패하여 SNS 이메일 알림을 트리거하고 전체 상태 머신의 실행이 실패합니다.
다음 이미지는 실패한 상태 시스템의 워크플로를 보여줍니다.
- DataBrew 콘솔에서 다음을 선택하여 규칙 실패를 조사할 수 있습니다.
AWSGlueDataBrewProfileResults
CloudFormation 스택 출력의 값입니다.
정리
향후 요금이 발생하지 않도록 리소스를 삭제하십시오. AWS CloudFormation 콘솔에서 다음이라는 스택을 삭제합니다. AWSBigDataBlogDataBrewDQSample
.
결론
이 게시물에서는 자동화된 이벤트 기반 데이터 품질 검증 파이프라인을 구축하는 방법을 배웠습니다. DataBrew를 사용하여 비즈니스 및 기술 요구 사항에 대한 데이터 품질 규칙, 임계값 및 규칙 집합을 정의할 수 있습니다. Step Functions, EventBridge 및 Amazon SNS를 사용하면 요구 사항에 맞게 사용자 지정 가능한 오류 처리 및 알림을 통해 복잡한 파이프라인을 구축할 수 있습니다.
다음을 방문하여 이 솔루션과 소스 코드에 대해 자세히 알아볼 수 있습니다. GitHub 저장소. DataBrew 데이터 품질 규칙에 대해 자세히 알아보려면 다음을 방문하십시오. 이제 AWS Glue DataBrew를 통해 고객은 데이터 품질 규칙을 생성하여 비즈니스 요구 사항을 정의하고 검증할 수 있습니다. 또는 참조 AWS Glue DataBrew에서 데이터 품질 검증.
저자에 관하여
라이스 알 사둔 Envision Engineering 팀의 수석 프로토타입 설계자입니다. 그는 실제 고객 문제를 해결하기 위해 AI, 기계 학습, IoT 및 에지 컴퓨팅, 스트리밍 분석, 로봇 공학, 공간 컴퓨팅을 사용하여 프로토타입과 솔루션을 구축합니다. 여가 시간에 Laith는 사진, 드론 비행, 하이킹, 페인트볼과 같은 야외 활동을 즐깁니다.
고든 버지스 AWS Glue DataBrew의 수석 제품 관리자입니다. 그는 고객이 데이터에서 통찰력을 찾도록 돕는 데 열정을 갖고 있으며 분석 제품을 위한 사용자 경험과 풍부한 기능을 구축하는 데 중점을 둡니다. 업무 외 시간에 Gordon은 독서, 커피, 컴퓨터 조립을 즐깁니다.
- '
- &
- 100
- 107
- 7
- 소개
- 계정
- 방과 후 액티비티
- 주소
- AI
- All
- 아마존
- 분석
- 어플리케이션
- 아키텍처
- 자동화
- AWS
- 빌드
- 건물
- 사업
- 요금
- 확인하는 것이 좋다.
- 청소관련
- 암호
- 커피
- 단
- 복잡한
- 컴퓨터
- 컴퓨팅
- 콘솔에서
- 고객
- 데이터
- 데이터 품질
- 일
- 발견
- 무인 비행기
- Edge
- 에지 컴퓨팅
- 편집자
- 이메일
- 종료
- 엔지니어링
- 환경
- 이벤트
- 예
- 체험
- 고장
- 빠른
- 특색
- 맞게
- 항공편
- 발견
- 무료
- 기능
- 기능
- 미래
- 성장하는
- 처리
- 건강 관리
- 도움이
- 하이킹
- 방법
- How To
- HTTPS
- 확인
- 영상
- 구현
- 통찰력
- 조사
- IOT
- 문제
- IT
- 일
- 키
- 넓은
- 최근
- 배우다
- 배운
- 배우기
- 라인
- LINK
- 리눅스
- 위치
- 기계 학습
- 제조업 자
- ML
- 배우기
- 나노
- 필요
- 공고
- 옵션
- 주문
- 기타
- 집 밖의
- 사진술
- 교장
- 프로덕트
- 제품
- 프로필
- 프로토 타입
- 공급자
- 품질
- 읽기
- 감소
- 교체
- 요구조건 니즈
- 자료
- 응답
- 결과
- 반품
- 리뷰
- 로봇
- 규칙
- 달리기
- 규모
- 서버리스
- 서비스
- 세트
- 비슷한
- 단순, 간단, 편리
- So
- 솔루션
- 풀다
- 공간의
- 공간 컴퓨팅
- 구체적으로
- 스프레드 시트
- 주 정부
- 통계
- Status
- 저장
- 스트리밍
- 신청
- 성공
- 테크니컬
- 단말기
- test
- 소스
- 을 통하여
- 시간
- 수단
- 변환
- 변화
- 지도 시간
- 가치
- 관측
- 작업
- 워크플로우