ปัจจุบัน ลูกค้าหลายแสนรายใช้ Data Lake เพื่อการวิเคราะห์และการเรียนรู้ของเครื่อง อย่างไรก็ตาม วิศวกรข้อมูลต้องทำความสะอาดและเตรียมข้อมูลนี้ก่อนที่จะนำไปใช้ได้ ข้อมูลพื้นฐานต้องถูกต้องและเป็นข้อมูลล่าสุดเพื่อให้ลูกค้าตัดสินใจทางธุรกิจได้อย่างมั่นใจ มิฉะนั้น ผู้บริโภคข้อมูลจะสูญเสียความไว้วางใจในข้อมูลและตัดสินใจได้ไม่ดีหรือไม่ถูกต้อง เป็นงานทั่วไปสำหรับวิศวกรข้อมูลในการประเมินว่าข้อมูลถูกต้องและเป็นปัจจุบันหรือไม่ วันนี้มีเครื่องมือคุณภาพข้อมูลต่างๆ อย่างไรก็ตาม เครื่องมือคุณภาพข้อมูลทั่วไปมักต้องการกระบวนการแบบแมนนวลเพื่อตรวจสอบคุณภาพข้อมูล
AWS Glue Data Quality เป็นคุณสมบัติแสดงตัวอย่างของ AWS กาว ที่วัดและตรวจสอบคุณภาพข้อมูลของ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) data lake และใน AWS Glue แยก แปลง และโหลดงาน (ETL) นี่เป็นคุณลักษณะการแสดงตัวอย่างแบบเปิด ดังนั้นจึงเปิดใช้งานแล้วในบัญชีของคุณใน ภูมิภาคที่มีอยู่. คุณสามารถกำหนดและวัดผลการตรวจสอบคุณภาพข้อมูลใน AWS Glue Studio Console ได้อย่างง่ายดายโดยไม่ต้องเขียนโค้ด ทำให้ประสบการณ์ในการจัดการคุณภาพข้อมูลของคุณง่ายขึ้น
โพสต์นี้เป็นส่วนที่ 2 ของซีรีส์สี่โพสต์เพื่ออธิบายวิธีการทำงานของ AWS Glue Data Quality ตรวจสอบโพสต์ก่อนหน้านี้ในชุดนี้:
ในโพสต์นี้ เราจะแสดงวิธีสร้างงาน AWS Glue ที่วัดและตรวจสอบคุณภาพข้อมูลของไปป์ไลน์ข้อมูล นอกจากนี้ เรายังแสดงวิธีดำเนินการตามผลลัพธ์ด้านคุณภาพข้อมูลด้วย
ภาพรวมโซลูชัน
ลองพิจารณากรณีการใช้งานตัวอย่างที่วิศวกรข้อมูลจำเป็นต้องสร้างไปป์ไลน์ข้อมูลเพื่อนำเข้าข้อมูลจากโซนดิบไปยังโซนที่ดูแลจัดการในดาต้าเลค ในฐานะวิศวกรข้อมูล หนึ่งในความรับผิดชอบหลักของคุณ—พร้อมกับการแยก แปลง และโหลดข้อมูล—คือการตรวจสอบคุณภาพของข้อมูล การระบุปัญหาด้านคุณภาพข้อมูลล่วงหน้าช่วยให้คุณป้องกันการวางข้อมูลที่ไม่ดีในโซนที่ดูแลจัดการ และหลีกเลี่ยงเหตุการณ์ความเสียหายของข้อมูลที่ลำบาก
ในโพสต์นี้ คุณจะได้เรียนรู้วิธีตั้งค่าอย่างง่ายๆ built-in และ ประเพณี การตรวจสอบความถูกต้องของข้อมูลจะตรวจสอบในงาน AWS Glue ของคุณเพื่อป้องกันข้อมูลที่ไม่ดีไม่ให้ทำลายข้อมูลคุณภาพสูงที่ดาวน์สตรีม
ชุดข้อมูลที่ใช้สำหรับโพสต์นี้สร้างขึ้นโดยสังเคราะห์ ภาพหน้าจอต่อไปนี้แสดงตัวอย่างข้อมูล
ตั้งค่าทรัพยากรด้วย AWS CloudFormation
โพสต์นี้มี an การก่อตัวของ AWS Cloud เทมเพลตสำหรับการตั้งค่าอย่างรวดเร็ว คุณสามารถตรวจสอบและปรับแต่งให้เหมาะกับความต้องการของคุณ
เทมเพลต CloudFormation สร้างทรัพยากรต่อไปนี้:
- ที่เก็บข้อมูล Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - คำนำหน้าและวัตถุต่อไปนี้ในบัคเก็ต S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS Identity และการจัดการการเข้าถึง (IAM) ผู้ใช้ บทบาท และนโยบาย บทบาทของ IAM (
GlueDataQualityStudio-*
) มีสิทธิ์อ่านและเขียนจากบัคเก็ต S3 - AWS แลมบ์ดา ฟังก์ชันและนโยบาย IAM ที่ฟังก์ชันเหล่านั้นต้องการเพื่อสร้างและลบสแต็กนี้
ในการสร้างทรัพยากรของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- เข้าสู่ระบบเพื่อ คอนโซล AWS CloudFormation ใน
us-east-1
ภูมิภาค. - Choose เรียกใช้ Stack:
- เลือก ฉันรับทราบว่า AWS CloudFormation อาจสร้างทรัพยากร IAM.
- Choose สร้าง stack และรอให้ขั้นตอนการสร้างสแต็กเสร็จสมบูรณ์
ดำเนินการแก้ปัญหา
ในการเริ่มต้นการกำหนดค่าโซลูชันของคุณ ให้ทำตามขั้นตอนต่อไปนี้:
- เกี่ยวกับ คอนโซล AWS Glue Studioเลือก งาน ในบานหน้าต่างนำทาง
- เลือก ภาพด้วยผ้าใบเปล่า และเลือก สร้างบัญชีตัวแทน.
- เลือก รายละเอียดของงาน แท็บเพื่อกำหนดค่างาน
- สำหรับ Nameป้อน
GlueDataQualityStudio
. - สำหรับ บทบาท IAMเลือกบทบาทที่ขึ้นต้นด้วย
GlueDataQualityStudio-*
. - สำหรับ รุ่นกาวเลือก กาว 3.0.
- สำหรับ บุ๊คมาร์คงานเลือก ปิดการใช้งาน. สิ่งนี้ทำให้คุณสามารถเรียกใช้งานนี้หลายครั้งด้วยชุดข้อมูลอินพุตเดียวกัน
- สำหรับ จำนวนครั้งในการลองใหม่ป้อน
0
. - ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร คุณสมบัติขั้นสูง ให้ระบุบัคเก็ต S3 ที่สร้างโดยเทมเพลต CloudFormation (เริ่มต้นด้วย
gluedataqualitystudio-*
). - Choose ลด.
- หลังจากบันทึกงานแล้ว ให้เลือก ของ Visual แท็บและบน แหล่ง เมนูให้เลือก Amazon S3.
- เกี่ยวกับ คุณสมบัติแหล่งข้อมูล – S3 แท็บสำหรับ ประเภทแหล่งที่มา S3ให้เลือก ที่ตั้ง S3.
- Choose เรียกดู S3 และนำทางไปยังคำนำหน้า
/datalake/raw/customer/
ในบัคเก็ต S3 ที่ขึ้นต้นด้วยgluedataqualitystudio-*
. - Choose อนุมานสคีมา.
- เกี่ยวกับ การกระทำ เมนูให้เลือก ประเมินคุณภาพข้อมูล.
- เลือก ประเมินคุณภาพข้อมูล ปม
เกี่ยวกับ แปลง ตอนนี้คุณสามารถเริ่มสร้างกฎคุณภาพข้อมูลได้แล้ว กฎข้อแรกที่คุณสร้างขึ้นคือการตรวจสอบว่าCustomer_ID
ไม่ซ้ำกันและไม่เป็นโมฆะโดยใช้isPrimaryKey
กฎ - เกี่ยวกับ ประเภทกฎ ของแท็บ ตัวสร้างกฎ DQDL, ค้นหา
isprimarykey
แล้วเลือกเครื่องหมายบวก - เกี่ยวกับ schema ของแท็บ ตัวสร้างกฎ DQDL, เลือกเครื่องหมายบวกถัดจาก
Customer_ID
. - ในเครื่องมือแก้ไขกฎ ให้ลบ
id
.
กฎต่อไปเราจะเพิ่มการตรวจสอบว่าFirst_Name
ค่าคอลัมน์มีอยู่สำหรับทุกแถว - คุณยังสามารถป้อนกฎคุณภาพของข้อมูลได้โดยตรงในตัวแก้ไขกฎ เพิ่มเครื่องหมายจุลภาค (,) และป้อน
IsComplete "First_Name",
หลังจากกฎข้อแรก
ต่อไป คุณเพิ่มกฎที่กำหนดเองเพื่อตรวจสอบว่าไม่มีแถวใดที่ไม่มีอยู่Telephone
orEmail
. - ป้อนกฎที่กำหนดเองต่อไปนี้ในตัวแก้ไขกฎ:
คุณลักษณะประเมินคุณภาพข้อมูลให้การดำเนินการเพื่อจัดการผลลัพธ์ของงานตามผลลัพธ์คุณภาพของงาน - สำหรับโพสต์นี้ เลือก งานล้มเหลวเมื่อคุณภาพข้อมูลล้มเหลว และเลือก งานล้มเหลวโดยไม่มีการโหลดเป้าหมาย ข้อมูล การกระทำ ใน การตั้งค่าเอาต์พุตคุณภาพข้อมูล ส่วนเลือก เรียกดู S3 และนำทางไปยังคำนำหน้า
dqresults
ในบัคเก็ต S3 ที่ขึ้นต้นด้วยgluedataqualitystudio-*
. - เกี่ยวกับ เป้า เมนูให้เลือก Amazon S3.
- เลือก เป้าหมายข้อมูล – ที่ฝากข้อมูล S3 ปม
- เกี่ยวกับ คุณสมบัติเป้าหมายข้อมูล – S3 แท็บสำหรับ รูปแบบเลือก ปาร์เกต์และสำหรับ ประเภทการบีบอัดเลือก เร็ว.
- สำหรับ ตำแหน่งเป้าหมาย S3เลือก เรียกดู S3 และนำทางไปยังคำนำหน้า
/datalake/curated/customer/
ในบัคเก็ต S3 ที่ขึ้นต้นด้วยgluedataqualitystudio-*
. - Choose ลดแล้วเลือก วิ่ง.
คุณสามารถดูรายละเอียดการรันงานได้ที่แท็บ รัน ในตัวอย่างของเรา งานล้มเหลวโดยมีข้อความแสดงข้อผิดพลาด “AssertionError: งานล้มเหลวเนื่องจากกฎ DQ ล้มเหลวสำหรับโหนด: ”
คุณสามารถตรวจสอบผลลัพธ์คุณภาพข้อมูลได้ในแท็บคุณภาพข้อมูล ในตัวอย่างของเรา การตรวจสอบคุณภาพข้อมูลที่กำหนดเองล้มเหลวเนื่องจากแถวหนึ่งในชุดข้อมูลไม่มีTelephone
orEmail
มูลค่าผลลัพธ์การประเมินคุณภาพข้อมูลยังเขียนไปยังบัคเก็ต S3 ในรูปแบบ JSON ตามพารามิเตอร์ตำแหน่งผลลัพธ์คุณภาพข้อมูลของโหนด - นำทางไปยัง
dqresults
คำนำหน้าภายใต้บัคเก็ต S3 เริ่มต้นgluedataqualitystudio-*
. คุณจะเห็นว่าผลลัพธ์คุณภาพข้อมูลถูกแบ่งตามวันที่
ต่อไปนี้คือเอาต์พุตของไฟล์ JSON คุณสามารถใช้เอาต์พุตไฟล์นี้เพื่อสร้างแดชบอร์ดการแสดงภาพคุณภาพข้อมูลที่กำหนดเองได้
คุณยังสามารถตรวจสอบ ประเมินคุณภาพข้อมูล โหนดผ่าน อเมซอน คลาวด์วอตช์ เมตริกและตั้งค่าการเตือนเพื่อส่งการแจ้งเตือนเกี่ยวกับผลลัพธ์ด้านคุณภาพข้อมูล หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีตั้งค่าการเตือนของ CloudWatch โปรดดูที่ การใช้การเตือนของ Amazon CloudWatch.
ทำความสะอาด
เพื่อหลีกเลี่ยงการเรียกเก็บเงินในอนาคตและเพื่อล้างบทบาทและนโยบายที่ไม่ได้ใช้ ให้ลบทรัพยากรที่คุณสร้างขึ้น:
- ลบไฟล์
GlueDataQualityStudio
งานที่คุณสร้างเป็นส่วนหนึ่งของโพสต์นี้ - บนคอนโซล AWS CloudFormation ให้ลบไฟล์
GlueDataQualityStudio
กอง
สรุป
AWS Glue Data Quality มีวิธีง่ายๆ ในการวัดและตรวจสอบคุณภาพข้อมูลของไปป์ไลน์ ETL ของคุณ ในโพสต์นี้ คุณได้เรียนรู้วิธีดำเนินการที่จำเป็นตามผลลัพธ์ด้านคุณภาพของข้อมูล ซึ่งช่วยให้คุณรักษามาตรฐานข้อมูลระดับสูงและตัดสินใจทางธุรกิจได้อย่างมั่นใจ
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ AWS Glue Data Quality โปรดดูเอกสารประกอบ:
เกี่ยวกับผู้เขียน
เด่นบัณฑุปราสาท เป็นผู้เชี่ยวชาญด้านการวิเคราะห์อาวุโสของ AWS ซึ่งเชี่ยวชาญด้านบริการข้อมูลขนาดใหญ่ เขามีความกระตือรือร้นในการช่วยลูกค้าสร้างสถาปัตยกรรมข้อมูลที่ทันสมัยบน AWS Cloud เขาได้ช่วยลูกค้าทุกขนาดในการดำเนินการจัดการข้อมูล คลังข้อมูล และโซลูชัน Data Lake
ยานนิส เมนเตกิดิส เป็นวิศวกรพัฒนาซอฟต์แวร์อาวุโสในทีม AWS Glue
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- เกี่ยวกับเรา
- เข้า
- ลงชื่อเข้าใช้
- ถูกต้อง
- รับทราบ
- การกระทำ
- การปฏิบัติ
- หลังจาก
- ทั้งหมด
- ช่วยให้
- แล้ว
- อเมซอน
- การวิเคราะห์
- และ
- สถาปัตยกรรม
- AWS
- การก่อตัวของ AWS Cloud
- AWS กาว
- ไม่ดี
- ข้อมูลไม่ดี
- ตาม
- เพราะ
- ก่อน
- ใหญ่
- ข้อมูลขนาดใหญ่
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- กรณี
- โหลด
- ตรวจสอบ
- การตรวจสอบ
- Choose
- เมฆ
- คอลัมน์
- ร่วมกัน
- สมบูรณ์
- มั่นใจ
- พิจารณา
- ปลอบใจ
- ผู้บริโภค
- คอรัปชั่น
- สร้าง
- ที่สร้างขึ้น
- การสร้าง
- curated
- ประเพณี
- ลูกค้า
- ลูกค้า
- ปรับแต่ง
- ข้อมูล
- ดาต้าเลค
- การจัดการข้อมูล
- วันที่
- การตัดสินใจ
- รายละเอียด
- พัฒนาการ
- โดยตรง
- เอกสาร
- อย่างง่ายดาย
- บรรณาธิการ
- อีเมล
- วิศวกร
- วิศวกร
- เข้าสู่
- ความผิดพลาด
- อีเธอร์ (ETH)
- ประเมินค่า
- ตัวอย่าง
- ที่มีอยู่
- ประสบการณ์
- อธิบาย
- สารสกัด
- ล้มเหลว
- ล้มเหลว
- ลักษณะ
- เนื้อไม่มีมัน
- ชื่อจริง
- ดังต่อไปนี้
- รูป
- ราคาเริ่มต้นที่
- ฟังก์ชั่น
- อนาคต
- สร้าง
- สร้าง
- ได้รับ
- ช่วย
- การช่วยเหลือ
- จะช่วยให้
- จุดสูง
- ที่มีคุณภาพสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- ร้อย
- ระบุ
- เอกลักษณ์
- การดำเนินการ
- in
- รวมถึง
- อินพุต
- ปัญหา
- IT
- การสัมภาษณ์
- งาน
- JSON
- คีย์
- ทะเลสาบ
- เรียนรู้
- ได้เรียนรู้
- การเรียนรู้
- โหลด
- โหลด
- ที่ตั้ง
- สูญเสีย
- เครื่อง
- เรียนรู้เครื่อง
- เก็บรักษา
- ทำ
- จัดการ
- การจัดการ
- การจัดการ
- คู่มือ
- วัด
- มาตรการ
- เมนู
- ข่าวสาร
- ตัวชี้วัด
- อาจ
- ทันสมัย
- การตรวจสอบ
- จอภาพ
- ข้อมูลเพิ่มเติม
- หลาย
- นำทาง
- การเดินเรือ
- จำเป็น
- ความต้องการ
- ถัดไป
- ปม
- การแจ้งเตือน
- วัตถุ
- เสนอ
- ONE
- เปิด
- มิฉะนั้น
- บานหน้าต่าง
- พารามิเตอร์
- ส่วนหนึ่ง
- หลงใหล
- การอนุญาต
- ท่อ
- การวาง
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- บวก
- นโยบาย
- โพสต์
- เตรียมการ
- นำเสนอ
- ป้องกัน
- ดูตัวอย่าง
- ก่อน
- ประถม
- กระบวนการ
- คุณสมบัติ
- ให้
- ให้
- คุณภาพ
- รวดเร็ว
- ดิบ
- อ่าน
- เมื่อเร็ว ๆ นี้
- ภูมิภาค
- ต้องการ
- จำเป็นต้องใช้
- แหล่งข้อมูล
- ผล
- ผลสอบ
- ทบทวน
- บทบาท
- บทบาท
- แถว
- กฎ
- กฎระเบียบ
- วิ่ง
- เดียวกัน
- ค้นหา
- Section
- ชุด
- บริการ
- บริการ
- ชุด
- การตั้งค่า
- การติดตั้ง
- โชว์
- แสดงให้เห็นว่า
- ลงชื่อ
- ง่าย
- ขนาด
- So
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- ทางออก
- โซลูชัน
- แหล่ง
- ผู้เชี่ยวชาญ
- ความเชี่ยวชาญ
- กอง
- มาตรฐาน
- เริ่มต้น
- ข้อความที่เริ่ม
- ที่เริ่มต้น
- ขั้นตอน
- ขั้นตอน
- การเก็บรักษา
- สตูดิโอ
- สูท
- สังเคราะห์
- เอา
- เป้า
- งาน
- ทีม
- เทมเพลต
- พื้นที่
- พัน
- ตลอด
- ครั้ง
- ไปยัง
- ในวันนี้
- เครื่องมือ
- แปลง
- การเปลี่ยนแปลง
- วางใจ
- ภายใต้
- พื้นฐาน
- เป็นเอกลักษณ์
- ไม่ได้ใช้
- ใช้
- ใช้กรณี
- ผู้ใช้
- มักจะ
- ตรวจสอบความถูกต้อง
- การตรวจสอบ
- ความคุ้มค่า
- ต่างๆ
- รายละเอียด
- การสร้างภาพ
- รอ
- ว่า
- ที่
- จะ
- ไม่มี
- โรงงาน
- เขียน
- การเขียน
- เขียน
- ของคุณ
- ลมทะเล