AWS กาว เป็นบริการรวมข้อมูลแบบไร้เซิร์ฟเวอร์ที่ทำให้ง่ายต่อการค้นหา จัดเตรียม และรวมข้อมูลสำหรับการวิเคราะห์ การเรียนรู้ของเครื่อง (ML) และการพัฒนาแอปพลิเคชัน คุณสามารถใช้ AWS Glue เพื่อสร้าง เรียกใช้ และตรวจสอบการรวมข้อมูลและไปป์ไลน์ ETL (แยก แปลง และโหลด) และแค็ตตาล็อกสินทรัพย์ของคุณในที่เก็บข้อมูลหลายแห่ง
ลูกค้าหลายแสนรายใช้ Data Lake สำหรับการวิเคราะห์และการเรียนรู้ของเครื่องเพื่อทำการตัดสินใจทางธุรกิจที่ขับเคลื่อนด้วยข้อมูล ผู้บริโภคข้อมูลจะสูญเสียความไว้วางใจในข้อมูลหากข้อมูลนั้นไม่ถูกต้องและเป็นข้อมูลล่าสุด ทำให้คุณภาพของข้อมูลเป็นสิ่งจำเป็นสำหรับการตัดสินใจที่เหมาะสมและถูกต้อง
การประเมินความถูกต้องและความใหม่ของข้อมูลเป็นงานทั่วไปสำหรับวิศวกร ปัจจุบันมีเครื่องมือมากมายในการประเมินคุณภาพข้อมูล อย่างไรก็ตาม เครื่องมือเหล่านี้มักจะต้องใช้กระบวนการค้นหาข้อมูลด้วยตนเองและความเชี่ยวชาญด้านวิศวกรรมข้อมูลและการเข้ารหัส
เรายินดีที่จะประกาศเปิดตัวตัวอย่างสาธารณะของ AWS Glue Data Quality คุณสามารถเข้าถึงคุณลักษณะนี้ได้แล้ววันนี้โดยไม่ต้องร้องขอการเข้าถึงเพิ่มเติมใน ภูมิภาคที่มีอยู่. AWS Glue Data Quality เป็นคุณสมบัติการแสดงตัวอย่างใหม่ของ AWS Glue ที่วัดและตรวจสอบคุณภาพข้อมูลของ Data Lake ที่ใช้ Amazon S3 และในงาน AWS Glue ETL ไม่จำเป็นต้องมีความเชี่ยวชาญในด้านวิศวกรรมข้อมูลหรือการเข้ารหัส ช่วยลดความยุ่งยากในการตรวจสอบและประเมินคุณภาพข้อมูลของคุณ
นี่คือส่วนที่ 1 ของชุดโพสต์สี่ส่วนเพื่ออธิบายวิธีการทำงานของ AWS Glue Data Quality ตรวจสอบโพสต์ต่อไปในซีรีส์:
ในโพสต์นี้ เราจะกล่าวถึงความเรียบง่ายของการใช้คุณสมบัติ AWS Glue Data Quality โดย:
- เริ่มต้นคำแนะนำด้านคุณภาพข้อมูลและดำเนินการกับข้อมูลของคุณใน AWS Glue Data Catalog
- การสร้างการเตือน Amazon CloudWatch เพื่อรับการแจ้งเตือนเมื่อผลลัพธ์ด้านคุณภาพข้อมูลต่ำกว่าเกณฑ์ที่กำหนด
- วิเคราะห์ผลลัพธ์การรันคุณภาพข้อมูล AWS Glue ของคุณผ่าน Amazon Athena
ตั้งค่าทรัพยากรด้วย AWS CloudFormation
สคริปต์ CloudFormation ที่ให้มาจะสร้างทรัพยากรต่อไปนี้ให้กับคุณ:
- บทบาท IAM ที่จำเป็นในการเรียกใช้ AWS Glue Data Quality
- บัคเก็ต Amazon Simple Storage Service (Amazon S3) เพื่อจัดเก็บชุดข้อมูล NYC Taxi
- บัคเก็ต S3 สำหรับจัดเก็บและวิเคราะห์ผลลัพธ์ของการเรียกใช้ AWS Glue Data Quality
- ฐานข้อมูล AWS Glue และตารางที่สร้างจากชุดข้อมูล NYC Taxi
ขั้นตอน:
- เปิดคอนโซล AWS CloudFormation
- Choose สร้าง stack จากนั้นเลือก ด้วยทรัพยากรใหม่ (มาตรฐาน).
- สำหรับ แหล่งที่มาของเทมเพลตเลือก อัปโหลดไฟล์เทมเพลตและจัดเตรียมไฟล์เทมเพลตที่แนบมาด้านบน จากนั้นเลือก ถัดไป.
- สำหรับ ชื่อกอง, ฐานข้อมูลคุณภาพข้อมูลและ ตารางคุณภาพข้อมูลปล่อยให้เป็นค่าเริ่มต้น สำหรับ DataQualityS3BucketNameป้อนชื่อบัคเก็ต S3 ของคุณ จากนั้นเลือก ถัดไป.
- ในหน้าจอสุดท้าย อย่าลืมรับทราบว่าสแต็คนี้จะสร้างทรัพยากร IAM ให้คุณ และเลือก ส่ง.
- เมื่อสร้างสแต็กสำเร็จแล้ว ให้ไปที่บัคเก็ต S3 ที่สร้างโดยสแต็กแล้วอัปโหลด yellow_tripdata_2022-01.ปาร์เก้ ไฟล์
เริ่มการทำงาน AWS Glue Data Quality บนข้อมูลของคุณใน AWS Glue Data Catalog
ในส่วนแรกนี้ เราจะสร้างคำแนะนำกฎคุณภาพข้อมูลจากบริการ AWS Glue Data Quality เมื่อใช้คำแนะนำเหล่านี้ เราจะเรียกใช้งานด้านคุณภาพข้อมูลกับชุดข้อมูลของเราเพื่อรับการวิเคราะห์ข้อมูลของเรา
ในการเริ่มต้น ให้ทำตามขั้นตอนต่อไปนี้:
- เปิดคอนโซล AWS Glue
- Choose ตาราง ภายใต้ แค็ตตาล็อกข้อมูล.
- เลือก ตารางคุณภาพข้อมูล สร้างตารางผ่าน CloudFormation stack
- เลือก ข้อมูลที่มีคุณภาพ แถบ
- Choose แนะนำชุดกฎ.
- เกี่ยวกับ แนะนำกฎคุณภาพข้อมูล ตรวจสอบหน้า บันทึกกฎที่แนะนำเป็นชุดกฎ. การดำเนินการนี้จะช่วยให้เราสามารถบันทึกกฎที่แนะนำในชุดกฎโดยอัตโนมัติ เพื่อใช้ในขั้นตอนถัดไป
- สำหรับ บทบาท IAMเลือกบทบาท IAM ที่สร้างขึ้นจาก CloudFormation stack
- สำหรับ การกำหนดค่าเพิ่มเติม -ไม่บังคับปล่อยให้จำนวนคนงานเริ่มต้นและหมดเวลา
- Choose แนะนำชุดกฎ. การดำเนินการนี้จะเริ่มต้นการเรียกใช้คำแนะนำด้านคุณภาพข้อมูล ด้วยจำนวนผู้ปฏิบัติงานที่กำหนด
- รอให้ชุดกฎเสร็จสมบูรณ์
- เมื่อเสร็จแล้วให้กลับไปที่ ชุดกฎ แท็บ คุณควรเห็นการเรียกใช้คำแนะนำที่ประสบความสำเร็จและสร้างชุดกฎ
ทำความเข้าใจกับคำแนะนำคุณภาพข้อมูล AWS Glue
คำแนะนำเกี่ยวกับคุณภาพข้อมูลของ AWS Glue เป็นคำแนะนำที่สร้างขึ้นโดยบริการคุณภาพข้อมูลของ AWS Glue และขึ้นอยู่กับรูปร่างของข้อมูลของคุณ คำแนะนำเหล่านี้จะพิจารณาลักษณะต่างๆ เช่น RowCounts, Mean, Standard Deviation ฯลฯ ของข้อมูลของคุณโดยอัตโนมัติ และสร้างชุดกฎเพื่อให้คุณใช้เป็นจุดเริ่มต้น
ชุดข้อมูลที่ใช้ในที่นี้คือชุดข้อมูล NYC Taxi จากสิ่งนี้ คอลัมน์ในชุดข้อมูลนี้ และค่าของคอลัมน์เหล่านั้น AWS Glue Data Quality จึงแนะนำชุดกฎ โดยรวมแล้ว บริการคำแนะนำจะพิจารณาคอลัมน์ทั้งหมดของชุดข้อมูลโดยอัตโนมัติ และกฎที่แนะนำ 55 ข้อ
บางส่วนของกฎเหล่านี้คือ:
- “RowCount ระหว่าง <> และ <> ” → คาดหวังจำนวนแถวตามข้อมูลที่เห็น
- “ColumnValues “VendorID” ใน [ ] → คาดว่าคอลัมน์ ”VendorID” จะอยู่ภายในชุดค่าเฉพาะ
- IsComplete “VendorID” → คาดหวังให้ “VendorID” เป็นค่าที่ไม่เป็นโมฆะ
ฉันจะใช้กฎคุณภาพข้อมูล AWS Glue ที่แนะนำได้อย่างไร
- จาก ชุดกฎ ส่วนคุณควรเห็นชุดกฎที่สร้างขึ้น เลือกชุดกฎที่สร้างขึ้น และเลือก ประเมินชุดกฎ.
- หากคุณไม่ได้ทำเครื่องหมายที่ช่อง บันทึกกฎที่แนะนำเป็นชุดกฎ เมื่อคุณเรียกใช้คำแนะนำ คุณยังคงสามารถคลิกที่เรียกใช้งานคำแนะนำและคัดลอกกฎเพื่อสร้างชุดกฎใหม่
- สำหรับ การดำเนินการด้านคุณภาพข้อมูล ภายใต้ คุณสมบัติคุณภาพของข้อมูลให้เลือก เผยแพร่เมตริกไปยัง Amazon CloudWatch. หากไม่ได้เลือกช่องนี้ การเรียกใช้คุณภาพข้อมูลจะไม่เผยแพร่เมตริกไปยัง Amazon CloudWatch
- สำหรับ บทบาท IAMให้เลือก GlueDataQualityBlogRole สร้างขึ้นใน AWS CloudFormation stack
- สำหรับ ขอจำนวนคนงาน ภายใต้ คุณสมบัติขั้นสูงปล่อยให้เป็นค่าเริ่มต้น
- สำหรับ ตำแหน่งผลลัพธ์คุณภาพข้อมูลให้เลือกค่าของ กาวข้อมูลผลลัพธ์คุณภาพS3Bucket ตำแหน่งที่สร้างขึ้นผ่าน AWS CloudFormation stack
- Choose ประเมินชุดกฎ.
- เมื่อการวิ่งเริ่มต้นขึ้น คุณจะเห็นสถานะของการวิ่งบน ผลลัพธ์คุณภาพข้อมูล แถบ
- หลังจากการรันถึงขั้นสำเร็จ ให้เลือกรันงานคุณภาพข้อมูลที่เสร็จสมบูรณ์ และดูผลลัพธ์คุณภาพข้อมูลที่แสดงใน เรียกใช้ผลลัพธ์.
บริการแนะนำของเราแนะนำให้เราบังคับใช้กฎ 55 ข้อ โดยอิงจากค่าคอลัมน์และข้อมูลภายในชุดข้อมูล NYC Taxi ของเรา จากนั้นเราแปลงชุดกฎ 55 ข้อเป็นชุดกฎ จากนั้น เราเรียกใช้งานการประเมินคุณภาพข้อมูลโดยใช้ชุดกฎกับชุดข้อมูลของเรา ในผลลัพธ์ด้านบน เราเห็นสถานะของแต่ละรายการภายใน RuleSet
คุณยังสามารถใช้ AWS Glue Data Quality API เพื่อดำเนินการตามขั้นตอนเหล่านี้
รับการแจ้งเตือนของ Amazon SNS สำหรับคุณภาพข้อมูลที่ล้มเหลวซึ่งทำงานผ่านการแจ้งเตือนของ Amazon CloudWatch
การประเมินคุณภาพข้อมูล AWS Glue แต่ละครั้งที่เรียกใช้จาก Data Catalog จะแสดงเมตริกคู่หนึ่งชื่อ กาว.data.quality.rules.passed (ระบุกฎหลายข้อที่ผ่าน) และ กาว.data.quality.rules.failed (ระบุจำนวนกฎที่ล้มเหลว) ต่อการรันคุณภาพข้อมูล เมตริกที่ปล่อยออกมานี้สามารถใช้เพื่อสร้างการเตือนเพื่อแจ้งเตือนผู้ใช้หากคุณภาพข้อมูลที่กำหนดต่ำกว่าเกณฑ์
หากต้องการเริ่มต้นด้วยการตั้งค่าการเตือนที่จะส่งอีเมลผ่านการแจ้งเตือนของ Amazon SNS ให้ทำตามขั้นตอนด้านล่าง:
- เปิดคอนโซล Amazon CloudWatch
- Choose ตัวชี้วัดทั้งหมด ภายใต้ ตัวชี้วัด. คุณจะเห็นเนมสเปซเพิ่มเติมภายใต้ เนมสเปซที่กำหนดเอง หัวข้อ กาวข้อมูลคุณภาพ.
หมายเหตุ: เมื่อเริ่มรัน AWS Glue Data Quality ตรวจสอบให้แน่ใจว่า เผยแพร่เมตริกไปยัง Amazon CloudWatch ช่องทำเครื่องหมายถูกเปิดใช้งาน ดังที่แสดงด้านล่าง มิฉะนั้น ตัววัดสำหรับการเรียกใช้นั้นจะไม่เผยแพร่ไปยัง Amazon CloudWatch
- ภายใต้ กาวข้อมูลคุณภาพ เนมสเปซ คุณควรจะเห็นเมตริกที่ปล่อยออกมาต่อตาราง ต่อชุดกฎ สำหรับวัตถุประสงค์ของบล็อกของเรา เราจะใช้ กาว.data.quality.rules.failed กฎและสัญญาณเตือน หากค่านี้มากกว่า 1 (แสดงว่าหากเราเห็นการประเมินกฎที่ล้มเหลวจำนวนหนึ่งมากกว่า 1 เราต้องการได้รับแจ้ง)
- เพื่อสร้างการเตือน เลือก สัญญาณเตือนทั้งหมด ภายใต้สัญญาณเตือนภัย
- Choose สร้างการเตือน.
- Choose เลือกเมตริก.
- เลือก กาว.data.quality.rules.failed เมตริกที่สอดคล้องกับตารางที่คุณสร้างขึ้น จากนั้นเลือก เลือกเมตริก.
- ภายใต้ ระบุเมตริกและเงื่อนไข ใต้แท็บ ตัวชี้วัด ส่วน:
- สำหรับ สถิติให้เลือก รวม.
- สำหรับ ระยะเวลาให้เลือก 1 นาที.
- ภายใต้ เงื่อนไข ส่วน:
- สำหรับ ประเภทเกณฑ์เลือก คงที่.
- สำหรับ เมื่อใดก็ตามที่ glue.data.quality.rules.failed คือ...ให้เลือก มากกว่า/เท่ากัน.
- สำหรับ กว่า…ให้ป้อน 1 เป็นค่าเกณฑ์
- ขยาย การกำหนดค่าเพิ่มเติม เลื่อนลงและเลือก ปฏิบัติต่อข้อมูลที่หายไปเป็นอย่างดี
การเลือกเหล่านี้บ่งบอกเป็นนัยว่าหาก กาว.data.quality.rules.failed เมตริกปล่อยค่าที่มากกว่าหรือเท่ากับ 1เราจะส่งสัญญาณเตือน อย่างไรก็ตามหากไม่มีข้อมูลใด ๆ เราจะถือว่าเป็นข้อมูลที่สามารถยอมรับได้
- Choose ถัดไป.
- On กำหนดค่าการกระทำ:
- สำหรับ ทริกเกอร์สถานะปลุก เลือก ในสัญญาณเตือน .
- สำหรับ ส่งการแจ้งเตือนไปยังหัวข้อ SNS ต่อไปนี้เลือก สร้างหัวข้อใหม่ เพื่อส่งการแจ้งเตือนผ่านหัวข้อ SNS ใหม่
- สำหรับ ปลายทางอีเมลที่จะได้รับการแจ้งเตือน..., ใส่อีเมลล์ของคุณ. เลือก ถัดไป.
- สำหรับ ชื่อนาฬิกาปลุกป้อน myFirstDQAlarm แล้วเลือก ถัดไป.
- สุดท้าย คุณจะเห็นข้อมูลสรุปของการเลือกทั้งหมดบนหน้า ดูตัวอย่างและสร้าง หน้าจอ. เลือก สร้างการเตือน ที่ส่วนลึกสุด.
- ตอนนี้คุณควรจะเห็นการเตือนที่ถูกสร้างขึ้นจากแดชบอร์ดการเตือนของ Amazon CloudWatch
เพื่อสาธิตการเตือนคุณภาพข้อมูลของ AWS Glue เราจะพูดถึงสถานการณ์จริงที่เรานำเข้าข้อมูลที่เสียหาย และเราจะใช้บริการคุณภาพข้อมูลของ AWS Glue เพื่อรับการแจ้งเตือนนี้ได้อย่างไร โดยใช้การเตือนที่เรา ที่สร้างขึ้นในขั้นตอนก่อนหน้านี้ เพื่อจุดประสงค์นี้ เราจะใช้ไฟล์ที่ให้มา malformed_yellow_taxi.parquet ที่มีข้อมูลที่ได้รับการปรับแต่งโดยตั้งใจ
- นำทางไปยังตำแหน่ง S3 DataQualityS3BucketName กล่าวถึงในเทมเพลต CloudFormation ที่ให้มาในตอนต้นของบล็อกโพสต์
- อัปโหลดไฟล์ malformed_yellow_tripdata.parquet ไฟล์ไปยังตำแหน่งนี้ วิธีนี้จะช่วยให้เราจำลองโฟลว์ที่เรามีไฟล์ที่มีคุณภาพข้อมูลต่ำเข้ามาใน Data Lake ของเราผ่านกระบวนการ ETL
- ไปที่คอนโซล AWS Glue Data Catalog เลือก demo_nyc_taxi_data_input ที่สร้างขึ้นผ่านเทมเพลต AWS CloudFormation ที่ให้มา จากนั้นไปที่ ข้อมูลที่มีคุณภาพ แถบ
- เลือกชุดกฎที่เราสร้างไว้ในส่วนแรก จากนั้นเลือก ประเมินชุดกฎ.
- จาก ประเมินหน้าจอคุณภาพข้อมูล:
- เลือกช่องเพื่อ เผยแพร่เมตริกไปยัง Amazon CloudWatch ช่องทำเครื่องหมายนี้จำเป็นเพื่อให้แน่ใจว่าเมตริกความล้มเหลวถูกส่งไปยัง Amazon CloudWatch
- เลือกบทบาท IAM ที่สร้างผ่านเทมเพลต AWS CloudFormation
- เลือกตำแหน่งที่ตั้ง S3 เพื่อเผยแพร่ผลลัพธ์คุณภาพข้อมูล AWS Glue ของคุณ
- เลือก ประเมินชุดกฎ
- ไปที่ ผลลัพธ์คุณภาพข้อมูล แท็บ ตอนนี้คุณควรเห็นการเรียกใช้สองครั้ง หนึ่งรายการจากขั้นตอนก่อนหน้าของบล็อกนี้ และอีกรายการหนึ่งที่เราเรียกใช้ในขณะนี้ รอให้การทำงานปัจจุบันเสร็จสิ้น
- อย่างที่คุณเห็น เรามีผลการเรียกใช้ AWS Glue Data Quality ที่ล้มเหลว โดยมีกฎเพียง 52 ข้อจาก 55 ข้อที่ผ่าน ความล้มเหลวเหล่านี้เกิดจากไฟล์ใหม่ที่เราอัปโหลดไปยัง S3
- ไปที่คอนโซล Amazon CloudWatch และเลือกการเตือนที่เราสร้างขึ้นที่จุดเริ่มต้นของส่วนนี้
- อย่างที่คุณเห็น เราได้กำหนดค่าการเตือนให้เริ่มทำงานทุกครั้งที่มีการเตือน กาว.data.quality.rules.failed เมตริกเกินเกณฑ์ 1 หลังจากการเรียกใช้คุณภาพข้อมูล AWS Glue ข้างต้น เราพบว่ากฎ 3 ข้อล้มเหลว ซึ่งทำให้เกิดการเตือน นอกจากนี้ คุณควรได้รับอีเมลที่มีรายละเอียดเกี่ยวกับการปลุก
เราจึงได้แสดงตัวอย่างที่สามารถระบุข้อมูลขาเข้าที่ผิดรูปแบบ ซึ่งเข้ามาใน Data Lake ของเราได้ผ่านกฎคุณภาพข้อมูลของ AWS Glue และสามารถสร้างกลไกการแจ้งเตือนที่ตามมาเพื่อแจ้งบุคคลที่เหมาะสมได้
วิเคราะห์ผลการเรียกใช้คุณภาพข้อมูล AWS Glue ของคุณผ่าน Amazon Athena
ในสถานการณ์ที่คุณมีผลการเรียกใช้คุณภาพข้อมูล AWS Glue หลายรายการเทียบกับชุดข้อมูลในช่วงระยะเวลาหนึ่ง คุณอาจต้องการติดตามแนวโน้มของคุณภาพของชุดข้อมูลในช่วงเวลาหนึ่ง เพื่อให้บรรลุเป้าหมายนี้ เราสามารถส่งออกผลลัพธ์การเรียกใช้ AWS Glue Data Quality ไปยัง S3 และใช้ Amazon Athena เพื่อเรียกใช้การสืบค้นเชิงวิเคราะห์เทียบกับการเรียกใช้ที่ส่งออก ผลลัพธ์สามารถนำไปใช้เพิ่มเติมใน Amazon QuickSight เพื่อสร้างแดชบอร์ดเพื่อแสดงแนวโน้มคุณภาพข้อมูลของคุณในรูปแบบกราฟิก
ในส่วนที่สามของโพสต์นี้ เราจะเห็นขั้นตอนที่จำเป็นในการเริ่มติดตามคุณภาพของชุดข้อมูลของคุณ:
- สำหรับการเรียกใช้คุณภาพข้อมูลที่เราตั้งค่าไว้ในส่วนก่อนหน้านี้ เราได้ตั้งค่า ตำแหน่งผลลัพธ์คุณภาพข้อมูล พารามิเตอร์ไปยังตำแหน่งบัคเก็ตที่ระบุโดย AWS CloudFormation stack
- หลังจากการเรียกใช้แต่ละครั้งสำเร็จ คุณควรเห็นไฟล์ JSONL ไฟล์เดียวที่ส่งออกไปยังตำแหน่ง S3 ที่คุณเลือก ซึ่งสอดคล้องกับการเรียกใช้นั้น
- เปิดคอนโซล Amazon Athena
- ในตัวแก้ไขแบบสอบถาม ให้เรียกใช้คำสั่ง CREATE TABLE ต่อไปนี้ (แทนที่ ด้วยมูลค่าที่เกี่ยวข้องและ ส่วนกับ
GlueDataQualityResultsS3Bucket
ค่าจากเทมเพลต AWS CloudFormation ที่ให้มา): - เมื่อสร้างตารางด้านบนแล้ว คุณควรจะสามารถเรียกใช้การค้นหาเพื่อวิเคราะห์ผลลัพธ์ด้านคุณภาพข้อมูลของคุณได้
ตัวอย่างเช่น พิจารณาข้อความค้นหาต่อไปนี้ที่แสดงให้ฉันเห็นว่าคุณภาพข้อมูล AWS Glue ที่ล้มเหลวทำงานเทียบกับตารางของฉัน demo_nyc_taxi_data_input
ภายในกรอบเวลา:
ผลลัพธ์ของแบบสอบถามด้านบนแสดงรายละเอียดเกี่ยวกับการรันทั้งหมดด้วย "ผลลัพธ์" = 'ล้มเหลว' ที่รันกับตารางชุดข้อมูล NYC Taxi ของฉัน ( "ชื่อตาราง" = 'demo_nyc_taxi_data_input') ผลลัพธ์ยังให้ข้อมูลเกี่ยวกับเหตุผลความล้มเหลว ( failurereason
) และค่าที่ได้รับการประเมินเทียบกับ ( evaluatedmetrics
).
อย่างที่คุณเห็น เราสามารถรับข้อมูลโดยละเอียดเกี่ยวกับการเรียกใช้ AWS Glue Data Quality ผ่านผลการเรียกใช้ที่อัปโหลดไปยัง S3 เพื่อดำเนินการวิเคราะห์โดยละเอียดและสร้างแดชบอร์ดที่ด้านบนของข้อมูล
ทำความสะอาด
- ไปที่คอนโซล Amazon Athena และลบตารางที่สร้างขึ้นสำหรับการวิเคราะห์คุณภาพข้อมูล
- ไปที่คอนโซล Amazon CloudWatch และลบการเตือนที่สร้างขึ้น
- หากคุณปรับใช้สแต็ก CloudFormation ตัวอย่าง ให้ลบสแต็ก CloudFormation ผ่านคอนโซล AWS CloudFormation คุณจะต้อง ล้างบัคเก็ต S3 ก่อนที่คุณจะลบบัคเก็ต
- หากคุณเปิดใช้งาน AWS Glue Data Quality รันเพื่อส่งออกไปยัง S3 ให้ล้างบัคเก็ตเหล่านั้นด้วย
สรุป
ในโพสต์นี้ เราได้พูดถึงความง่ายและรวดเร็วในการรวมกฎคุณภาพข้อมูลโดยใช้คุณลักษณะ AWS Glue Data Quality ลงในตาราง AWS Glue Data Catalog ของคุณ นอกจากนี้ เรายังพูดคุยเกี่ยวกับวิธีเรียกใช้คำแนะนำและประเมินคุณภาพข้อมูลกับตารางของคุณ จากนั้นเราได้หารือเกี่ยวกับการวิเคราะห์ผลลัพธ์ด้านคุณภาพข้อมูลผ่าน Amazon Athena และขั้นตอนการตั้งค่าการเตือนผ่าน Amazon CloudWatch เพื่อแจ้งผู้ใช้เกี่ยวกับคุณภาพข้อมูลที่ล้มเหลว
หากต้องการเจาะลึก AWS Glue Data Quality API โปรดดูที่ เอกสาร AWS Glue Data Quality API
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณภาพข้อมูล AWS Glue โปรดดูที่ คู่มือนักพัฒนาคุณภาพข้อมูล AWS Glue
เกี่ยวกับผู้แต่ง
อนิเกต จิดดิกูดาร เป็นสถาปนิก Big Data ในทีม AWS Glue
โจเซฟ บาร์ลาน เป็นวิศวกรส่วนหน้าที่ AWS Glue เขามีประสบการณ์มากกว่า 5 ปีในการช่วยทีมสร้างส่วนประกอบ UI ที่ใช้ซ้ำได้ และหลงใหลเกี่ยวกับระบบการออกแบบส่วนหน้า ในเวลาว่างเขาชอบวาดรูปด้วยดินสอและดูรายการทีวี
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- สามารถ
- เกี่ยวกับเรา
- ข้างบน
- ยอมรับได้
- เข้า
- ลงชื่อเข้าใช้
- ความถูกต้อง
- ถูกต้อง
- บรรลุ
- รับทราบ
- ข้าม
- การปฏิบัติ
- เพิ่มเติม
- ที่อยู่
- สูง
- หลังจาก
- กับ
- ปลุก
- เตือนภัย
- ทั้งหมด
- อเมซอน
- อเมซอน อาเธน่า
- อเมซอน QuickSight
- การวิเคราะห์
- วิเคราะห์
- การวิเคราะห์
- วิเคราะห์
- วิเคราะห์
- และ
- ประกาศ
- อาปาเช่
- API
- APIs
- การใช้งาน
- การพัฒนาโปรแกรมประยุกต์
- เหมาะสม
- ด้าน
- สินทรัพย์
- อัตโนมัติ
- ใช้ได้
- AWS
- การก่อตัวของ AWS Cloud
- AWS กาว
- กลับ
- ตาม
- ก่อน
- การเริ่มต้น
- กำลัง
- ด้านล่าง
- ระหว่าง
- ใหญ่
- ข้อมูลขนาดใหญ่
- บล็อก
- ด้านล่าง
- กล่อง
- สร้าง
- ธุรกิจ
- พกพา
- แค็ตตาล็อก
- บาง
- ตรวจสอบ
- Choose
- การจัดหมวดหมู่
- การเข้ารหัส
- ชุด
- คอลัมน์
- คอลัมน์
- รวมกัน
- มา
- ร่วมกัน
- สมบูรณ์
- เสร็จ
- ส่วนประกอบ
- เงื่อนไข
- พิจารณา
- การพิจารณา
- ปลอบใจ
- ผู้บริโภค
- มี
- แปลง
- ตรงกัน
- ความเสียหาย
- ได้
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- ปัจจุบัน
- ขณะนี้
- ลูกค้า
- หน้าปัด
- ข้อมูล
- ที่ขับเคลื่อนด้วยข้อมูล
- ฐานข้อมูล
- การตัดสินใจ
- ค่าเริ่มต้น
- สาธิต
- แสดงให้เห็นถึง
- นำไปใช้
- ออกแบบ
- ระบบการออกแบบ
- รายละเอียด
- รายละเอียด
- ผู้พัฒนา
- พัฒนาการ
- การเบี่ยงเบน
- ค้นพบ
- การค้นพบ
- กล่าวถึง
- การวาดภาพ
- แต่ละ
- บรรณาธิการ
- อีเมล
- วิศวกร
- ชั้นเยี่ยม
- วิศวกร
- ทำให้มั่นใจ
- เข้าสู่
- จำเป็น
- ฯลฯ
- อีเธอร์ (ETH)
- ประเมินค่า
- ประเมิน
- การประเมินผล
- การประเมินผล
- ตัวอย่าง
- คาดหวัง
- ประสบการณ์
- ความชำนาญ
- อธิบาย
- ส่งออก
- ภายนอก
- สารสกัด
- ล้มเหลว
- ความล้มเหลว
- ฟอลส์
- ลักษณะ
- เนื้อไม่มีมัน
- สุดท้าย
- ธรรมชาติ
- ยิง
- ชื่อจริง
- ไหล
- ปฏิบัติตาม
- ดังต่อไปนี้
- รูป
- ราคาเริ่มต้นที่
- ส่วนหน้า
- ต่อไป
- สร้าง
- สร้าง
- ได้รับ
- ได้รับ
- กำหนด
- จะช่วยให้
- Go
- ไป
- ไป
- มากขึ้น
- ช่วย
- การช่วยเหลือ
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- รัง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- ระบุ
- in
- ขาเข้า
- ผสมผสาน
- ข้อมูล
- บูรณาการ
- IT
- งาน
- JSON
- เปิดตัว
- เรียนรู้
- การเรียนรู้
- ทิ้ง
- โหลด
- ที่ตั้ง
- ดู
- สูญเสีย
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำให้
- การทำ
- คู่มือ
- มาตรการ
- เมตริก
- ตัวชี้วัด
- อาจ
- หายไป
- ML
- การตรวจสอบ
- การตรวจสอบ
- จอภาพ
- ข้อมูลเพิ่มเติม
- หลาย
- ชื่อ
- นำทาง
- จำเป็นต้อง
- ใหม่
- ถัดไป
- การประกาศ
- การแจ้งเตือน
- จำนวน
- NYC
- ONE
- ดีที่สุด
- ใบสั่ง
- เป็นต้นฉบับ
- มิฉะนั้น
- พารามิเตอร์
- ส่วนหนึ่ง
- ในสิ่งที่สนใจ
- ผ่าน
- ที่ผ่านไป
- หลงใหล
- ดำเนินการ
- ระยะเวลา
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ยินดี
- จุด
- น่าสงสาร
- โพสต์
- โพสต์
- เตรียมการ
- ดูตัวอย่าง
- ก่อน
- กระบวนการ
- กระบวนการ
- ให้
- ให้
- สาธารณะ
- ประกาศ
- การตีพิมพ์
- วัตถุประสงค์
- คุณภาพ
- ต้นน้ำ
- โลกแห่งความจริง
- เหตุผล
- รับ
- เมื่อเร็ว ๆ นี้
- แนะนำ
- แนะนำ
- แนะนำ
- แนะนำ
- ตรงประเด็น
- ซ่อมแซม
- แทนที่
- การแสดง
- ต้องการ
- จำเป็นต้องใช้
- แหล่งข้อมูล
- ผล
- ผลสอบ
- นำมาใช้ใหม่
- บทบาท
- แถว
- กฎ
- กฎระเบียบ
- วิ่ง
- ลด
- สถานการณ์
- จอภาพ
- Section
- ส่วน
- เลือก
- ชุด
- serverless
- บริการ
- ชุด
- การตั้งค่า
- รูปร่าง
- น่า
- แสดง
- แสดงให้เห็นว่า
- ง่าย
- ความง่าย
- เดียว
- โดยเฉพาะ
- ที่ระบุไว้
- ความเร็ว
- กอง
- ระยะ
- มาตรฐาน
- เริ่มต้น
- ข้อความที่เริ่ม
- ที่เริ่มต้น
- สถานะ
- คำแถลง
- Status
- ขั้นตอน
- ยังคง
- การเก็บรักษา
- จัดเก็บ
- เก็บไว้
- ร้านค้า
- ภายหลัง
- ที่ประสบความสำเร็จ
- ประสบความสำเร็จ
- สรุป
- ที่จัดมา
- ระบบ
- ตาราง
- เอา
- งาน
- ทีม
- ทีม
- เทมเพลต
- พื้นที่
- ที่สาม
- พัน
- ธรณีประตู
- ตลอด
- เวลา
- การประทับเวลา
- ไปยัง
- ในวันนี้
- เครื่องมือ
- ด้านบน
- หัวข้อ
- รวม
- ลู่
- การติดตาม
- แปลง
- รักษา
- แนวโน้ม
- เรียก
- ทริกเกอร์
- วางใจ
- tv
- ui
- ภายใต้
- อัปโหลด
- us
- ใช้
- ผู้ใช้
- นำไปใช้
- ความคุ้มค่า
- ความคุ้มค่า
- ต่างๆ
- ผ่านทาง
- รายละเอียด
- รอ
- ชม
- ที่
- จะ
- ภายใน
- ไม่มี
- แรงงาน
- โรงงาน
- จะ
- ปี
- ของคุณ
- ลมทะเล