Ngày nay, hàng trăm nghìn khách hàng sử dụng kho dữ liệu để phân tích và học máy. Tuy nhiên, các kỹ sư dữ liệu phải làm sạch và chuẩn bị dữ liệu này trước khi có thể sử dụng. Dữ liệu cơ bản phải chính xác và mới nhất để khách hàng đưa ra quyết định kinh doanh một cách tự tin. Mặt khác, người tiêu dùng dữ liệu sẽ mất niềm tin vào dữ liệu và đưa ra quyết định không tối ưu hoặc không chính xác. Nhiệm vụ chung của các kỹ sư dữ liệu là đánh giá xem dữ liệu có chính xác và mới nhất hay không. Ngày nay có nhiều công cụ chất lượng dữ liệu khác nhau. Tuy nhiên, các công cụ chất lượng dữ liệu phổ biến thường yêu cầu các quy trình thủ công để giám sát chất lượng dữ liệu.
AWS Glue Data Quality là một tính năng xem trước của Keo AWS đo lường và giám sát chất lượng dữ liệu của Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) hồ dữ liệu và trong các công việc trích xuất, chuyển đổi và tải (ETL) của AWS Glue. Đây là một tính năng xem trước mở nên nó đã được kích hoạt trong tài khoản của bạn trong phần khu vực có sẵn. Bạn có thể dễ dàng xác định và đo lường kiểm tra chất lượng dữ liệu trong bảng điều khiển AWS Glue Studio mà không cần viết mã. Nó đơn giản hóa trải nghiệm quản lý chất lượng dữ liệu của bạn.
Bài đăng này là Phần 2 của loạt bài gồm bốn bài giải thích cách thức hoạt động của AWS Glue Data Quality. Kiểm tra bài viết trước trong loạt bài này:
Trong bài đăng này, chúng tôi trình bày cách tạo tác vụ AWS Glue để đo lường và giám sát chất lượng dữ liệu của một đường dẫn dữ liệu. Chúng tôi cũng chỉ ra cách thực hiện hành động dựa trên kết quả về chất lượng dữ liệu.
Tổng quan về giải pháp
Hãy xem xét một trường hợp sử dụng ví dụ trong đó một kỹ sư dữ liệu cần xây dựng một đường dẫn dữ liệu để nhập dữ liệu từ vùng thô đến vùng được tuyển chọn trong kho dữ liệu. Là một kỹ sư dữ liệu, một trong những trách nhiệm chính của bạn—cùng với việc trích xuất, chuyển đổi và tải dữ liệu—là xác thực chất lượng của dữ liệu. Việc xác định trước các vấn đề về chất lượng dữ liệu giúp bạn ngăn chặn việc đặt dữ liệu xấu vào vùng được quản lý và tránh các sự cố hỏng dữ liệu nghiêm trọng.
Trong bài đăng này, bạn sẽ học cách dễ dàng thiết lập được xây dựng trong và khách hàng kiểm tra xác thực dữ liệu trong công việc AWS Glue của bạn để ngăn chặn dữ liệu xấu làm hỏng dữ liệu chất lượng cao phía dưới.
Tập dữ liệu được sử dụng cho bài đăng này được tạo tổng hợp; ảnh chụp màn hình sau đây cho thấy một ví dụ về dữ liệu.
Thiết lập tài nguyên với AWS CloudFormation
Bài đăng này bao gồm một Hình thành đám mây AWS mẫu để thiết lập nhanh chóng. Bạn có thể xem xét và tùy chỉnh nó cho phù hợp với nhu cầu của bạn.
Mẫu CloudFormation tạo các tài nguyên sau:
- Nhóm Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - Các tiền tố và đối tượng sau trong nhóm S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- Quản lý truy cập và nhận dạng AWS (IAM) người dùng, vai trò và chính sách. Vai trò IAM (
GlueDataQualityStudio-*
) có quyền đọc và ghi từ bộ chứa S3. - AWS Lambda chức năng và chính sách IAM mà các chức năng đó yêu cầu để tạo và xóa ngăn xếp này.
Để tạo tài nguyên của bạn, hãy hoàn thành các bước sau:
- Đăng nhập vào Bảng điều khiển AWS CloudFormation trong
us-east-1
Khu vực. - Chọn Khởi chạy Stack:
- Chọn Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM.
- Chọn Tạo ngăn xếp và đợi bước tạo ngăn xếp hoàn thành.
Thực hiện giải pháp
Để bắt đầu định cấu hình giải pháp của bạn, hãy hoàn tất các bước sau:
- trên Bảng điều khiển AWS Glue Studio, chọn việc làm trong khung điều hướng.
- Chọn Trực quan với một canvas trống Và chọn Tạo.
- Chọn chi tiết công việc để định cấu hình công việc.
- Trong Họ tên, đi vào
GlueDataQualityStudio
. - Trong Vai trò IAM, chọn vai trò bắt đầu với
GlueDataQualityStudio-*
. - Trong Phiên bản keo, chọn Keo 3.0.
- Trong Đánh dấu công việc, chọn Vô hiệu hoá. Điều này cho phép bạn chạy công việc này nhiều lần với cùng một tập dữ liệu đầu vào.
- Trong Số lần thử lại, đi vào
0
. - Trong tạp chí Thuộc tính nâng cao phần này, hãy cung cấp bộ chứa S3 được tạo bởi mẫu CloudFormation (bắt đầu bằng
gluedataqualitystudio-*
). - Chọn Lưu.
- Sau khi công việc được lưu, hãy chọn Hình ảnh tab và trên nguồn menu, chọn Amazon S3.
- trên Thuộc tính nguồn dữ liệu – S3 tab, cho Loại nguồn S3, lựa chọn Vị trí S3.
- Chọn Duyệt qua S3 và điều hướng đến tiền tố
/datalake/raw/customer/
trong thùng S3 bắt đầu bằnggluedataqualitystudio-*
. - Chọn Suy ra lược đồ.
- trên Hoạt động menu, chọn Đánh giá chất lượng dữ liệu.
- Chọn Đánh giá chất lượng dữ liệu nút.
trên Chuyển đổi tab, bây giờ bạn có thể bắt đầu xây dựng quy tắc chất lượng dữ liệu. Quy tắc đầu tiên bạn tạo là kiểm tra xemCustomer_ID
là duy nhất và không null bằng cách sử dụngisPrimaryKey
qui định. - trên Các loại quy tắc tab của Trình tạo quy tắc DQDL, tìm kiếm
isprimarykey
và chọn dấu cộng. - trên Schema tab của Trình tạo quy tắc DQDL, chọn dấu cộng bên cạnh
Customer_ID
. - Trong trình chỉnh sửa quy tắc, hãy xóa
id
.
Quy tắc tiếp theo chúng tôi thêm kiểm tra xemFirst_Name
giá trị cột có mặt cho tất cả các hàng. - Bạn cũng có thể nhập trực tiếp các quy tắc về chất lượng dữ liệu trong trình chỉnh sửa quy tắc. Thêm dấu phẩy (,) và nhập
IsComplete "First_Name",
sau quy tắc đầu tiên.
Tiếp theo, bạn thêm quy tắc tùy chỉnh để xác thực rằng không có hàng nào tồn tại mà không cóTelephone
orEmail
. - Nhập quy tắc tùy chỉnh sau vào trình chỉnh sửa quy tắc:
Tính năng Đánh giá chất lượng dữ liệu cung cấp các hành động để quản lý kết quả của công việc dựa trên kết quả chất lượng công việc. - Đối với bài đăng này, hãy chọn Thất bại trong công việc khi chất lượng dữ liệu không thành công Và chọn Thất bại trong công việc mà không tải mục tiêu dữ liệu hành động. bên trong Cài đặt đầu ra chất lượng dữ liệu phần, chọn Duyệt qua S3 và điều hướng đến tiền tố
dqresults
trong thùng S3 bắt đầu bằnggluedataqualitystudio-*
. - trên Mục tiêu menu, chọn Amazon S3.
- Chọn Mục tiêu dữ liệu - nhóm S3 nút.
- trên Thuộc tính mục tiêu dữ liệu - S3 tab, cho Định dạng, chọn Sàn gỗ, Và cho Loại nén, chọn Snappy.
- Trong Vị trí mục tiêu S3, chọn Duyệt qua S3 và điều hướng đến tiền tố
/datalake/curated/customer/
trong thùng S3 bắt đầu bằnggluedataqualitystudio-*
. - Chọn Lưu, sau đó chọn chạy.
Bạn có thể xem chi tiết chạy công việc trên tab Chạy. Trong ví dụ của chúng tôi, công việc không thành công với thông báo lỗi “AssertionError: Công việc thất bại do không tuân thủ quy tắc DQ cho nút: .”
Bạn có thể xem lại kết quả về chất lượng dữ liệu trên tab Chất lượng dữ liệu. Trong ví dụ của chúng tôi, xác thực chất lượng dữ liệu tùy chỉnh không thành công do một trong các hàng trong tập dữ liệu không cóTelephone
orEmail
giá trị.Đánh giá kết quả Chất lượng dữ liệu cũng được ghi vào bộ chứa S3 ở định dạng JSON dựa trên tham số vị trí kết quả chất lượng dữ liệu của nút. - Hướng đến
dqresults
tiền tố dưới nhóm S3 bắt đầugluedataqualitystudio-*
. Bạn sẽ thấy rằng kết quả chất lượng dữ liệu được phân vùng theo ngày.
Sau đây là đầu ra của tệp JSON. Bạn có thể sử dụng đầu ra tệp này để xây dựng bảng điều khiển trực quan hóa chất lượng dữ liệu tùy chỉnh.
Bạn cũng có thể giám sát các Đánh giá chất lượng dữ liệu nút thông qua amazoncloudwatch số liệu và đặt báo thức để gửi thông báo về kết quả chất lượng dữ liệu. Để tìm hiểu thêm về cách thiết lập báo thức CloudWatch, hãy tham khảo Sử dụng cảnh báo Amazon CloudWatch.
Làm sạch
Để tránh phát sinh các khoản phí trong tương lai và để xóa các vai trò và chính sách không sử dụng, hãy xóa các tài nguyên bạn đã tạo:
- Xóa
GlueDataQualityStudio
công việc bạn đã tạo như một phần của bài đăng này. - Trên bảng điều khiển AWS CloudFormation, hãy xóa
GlueDataQualityStudio
cây rơm.
Kết luận
AWS Glue Data Quality cung cấp một cách dễ dàng để đo lường và giám sát chất lượng dữ liệu của đường dẫn ETL của bạn. Trong bài đăng này, bạn đã học cách thực hiện các hành động cần thiết dựa trên kết quả chất lượng dữ liệu, giúp bạn duy trì các tiêu chuẩn dữ liệu cao và đưa ra các quyết định kinh doanh tự tin.
Để tìm hiểu thêm về AWS Glue Data Quality, hãy xem tài liệu:
Về các tác giả
Deenbandhu Prasad là Chuyên gia phân tích cao cấp tại AWS, chuyên về các dịch vụ dữ liệu lớn. Anh ấy đam mê giúp khách hàng xây dựng kiến trúc dữ liệu hiện đại trên Đám mây AWS. Ông đã giúp khách hàng thuộc mọi quy mô triển khai các giải pháp quản lý dữ liệu, kho dữ liệu và hồ dữ liệu.
Yannis Mentekidis là Kỹ sư phát triển phần mềm cao cấp trong nhóm AWS Glue.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Giới thiệu
- truy cập
- Tài khoản
- chính xác
- công nhận
- Hoạt động
- hành động
- Sau
- Tất cả
- cho phép
- Đã
- đàn bà gan dạ
- phân tích
- và
- kiến trúc
- AWS
- Hình thành đám mây AWS
- Keo AWS
- Bad
- dữ liệu xấu
- dựa
- bởi vì
- trước
- lớn
- Dữ Liệu Lớn.
- xây dựng
- Xây dựng
- kinh doanh
- trường hợp
- tải
- kiểm tra
- Séc
- Chọn
- đám mây
- Cột
- Chung
- hoàn thành
- tự tin
- Hãy xem xét
- An ủi
- Người tiêu dùng
- tham nhũng
- tạo
- tạo ra
- tạo
- lưu trữ
- khách hàng
- khách hàng
- khách hàng
- tùy chỉnh
- dữ liệu
- Hồ dữ liệu
- quản lý dữ liệu
- Ngày
- quyết định
- chi tiết
- Phát triển
- trực tiếp
- tài liệu hướng dẫn
- dễ dàng
- biên tập viên
- ky sư
- Kỹ sư
- đăng ký hạng mục thi
- lôi
- Ether (ETH)
- đánh giá
- ví dụ
- tồn tại
- kinh nghiệm
- Giải thích
- trích xuất
- thất bại
- không
- Đặc tính
- Tập tin
- Tên
- tiếp theo
- định dạng
- từ
- chức năng
- tương lai
- tạo ra
- tạo
- nhận được
- đã giúp
- giúp đỡ
- giúp
- Cao
- chất lượng cao
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- HTTPS
- Hàng trăm
- xác định
- Bản sắc
- thực hiện
- in
- bao gồm
- đầu vào
- các vấn đề
- IT
- Việc làm
- việc làm
- json
- Key
- hồ
- LEARN
- học
- học tập
- tải
- tải
- địa điểm thư viện nào
- thua
- máy
- học máy
- duy trì
- làm cho
- quản lý
- quản lý
- quản lý
- nhãn hiệu
- đo
- các biện pháp
- Menu
- tin nhắn
- Metrics
- Might
- hiện đại
- Màn Hình
- màn hình
- chi tiết
- nhiều
- Điều hướng
- THÔNG TIN
- cần thiết
- nhu cầu
- tiếp theo
- nút
- thông báo
- đối tượng
- Cung cấp
- ONE
- mở
- nếu không thì
- cửa sổ
- tham số
- một phần
- đam mê
- cho phép
- đường ống dẫn
- đặt
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- thêm
- Chính sách
- Bài đăng
- Chuẩn bị
- trình bày
- ngăn chặn
- Xem trước
- trước
- chính
- Quy trình
- tài sản
- cho
- cung cấp
- chất lượng
- Nhanh chóng
- Nguyên
- Đọc
- gần đây
- khu
- yêu cầu
- cần phải
- Thông tin
- kết quả
- Kết quả
- xem xét
- Vai trò
- vai trò
- HÀNG
- Quy tắc
- quy tắc
- chạy
- tương tự
- Tìm kiếm
- Phần
- Loạt Sách
- dịch vụ
- DỊCH VỤ
- định
- thiết lập
- thiết lập
- hiển thị
- Chương trình
- đăng ký
- Đơn giản
- kích thước
- So
- Phần mềm
- phát triển phần mềm
- giải pháp
- Giải pháp
- nguồn
- chuyên gia
- chuyên
- ngăn xếp
- tiêu chuẩn
- Bắt đầu
- bắt đầu
- Bắt đầu
- Bước
- Các bước
- là gắn
- phòng thu
- Bộ đồ
- tổng hợp
- Hãy
- Mục tiêu
- Nhiệm vụ
- nhóm
- mẫu
- Sản phẩm
- hàng ngàn
- Thông qua
- thời gian
- đến
- bây giờ
- công cụ
- Chuyển đổi
- biến đổi
- NIỀM TIN
- Dưới
- cơ bản
- độc đáo
- không sử dụng
- sử dụng
- ca sử dụng
- Người sử dụng
- thường
- HIỆU LỰC
- xác nhận
- giá trị
- khác nhau
- Xem
- hình dung
- chờ đợi
- liệu
- cái nào
- sẽ
- không có
- công trinh
- viết
- viết
- viết
- trên màn hình
- zephyrnet