เสริมศักยภาพข้อมูล Jira ของคุณใน Data Lake ด้วย Amazon AppFlow และ AWS Glue

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในโลกของวิศวกรรมซอฟต์แวร์และการพัฒนา องค์กรต่าง ๆ ใช้เครื่องมือการจัดการโครงการเช่น แอตลาสเซียน จิรา คลาวด์- การจัดการโครงการกับ Jira นำไปสู่ชุดข้อมูลที่หลากหลาย ซึ่งสามารถให้ข้อมูลเชิงลึกในอดีตและเชิงคาดการณ์เกี่ยวกับความพยายามของโครงการและการพัฒนา

แม้ว่า Jira Cloud จะให้ความสามารถในการรายงาน แต่การโหลดข้อมูลนี้ลงใน Data Lake จะช่วยเสริมประสิทธิภาพด้วยข้อมูลทางธุรกิจอื่นๆ ตลอดจนสนับสนุนการใช้เครื่องมือระบบธุรกิจอัจฉริยะ (BI) และแอปพลิเคชันปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง (ML) บริษัทต่างๆ มักจะใช้แนวทาง Data Lake ในการวิเคราะห์ โดยนำข้อมูลจากระบบต่างๆ มากมายมาไว้ในที่เดียว เพื่อลดความซับซ้อนของวิธีการวิเคราะห์

โพสต์นี้แสดงวิธีการใช้งาน Amazon App Flow และ AWS กาว เพื่อสร้างไปป์ไลน์การนำเข้าข้อมูลอัตโนมัติเต็มรูปแบบที่จะซิงโครไนซ์ข้อมูล Jira ของคุณเข้ากับ Data Lake ของคุณ Amazon AppFlow มีการผสานรวมซอฟต์แวร์เป็นบริการ (SaaS) เข้ากับ Jira Cloud เพื่อโหลดข้อมูลลงในบัญชี AWS ของคุณ AWS Glue เป็นบริการค้นหา โหลด และแปลงข้อมูลแบบไร้เซิร์ฟเวอร์ ซึ่งจะเตรียมข้อมูลสำหรับการใช้งานในกิจกรรม BI และ AI/ML นอกจากนี้ โพสต์นี้มุ่งมั่นที่จะบรรลุโซลูชันที่ใช้โค้ดน้อยและไร้เซิร์ฟเวอร์เพื่อประสิทธิภาพการดำเนินงานและการเพิ่มประสิทธิภาพต้นทุน และโซลูชันยังรองรับการโหลดส่วนเพิ่มเพื่อเพิ่มประสิทธิภาพต้นทุน

ภาพรวมโซลูชัน

โซลูชันนี้ใช้ Amazon AppFlow เพื่อดึงข้อมูลจาก Jira Cloud ข้อมูลจะถูกซิงโครไนซ์กับ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ที่ใช้การดาวน์โหลดแบบเต็มครั้งแรกและการดาวน์โหลดการเปลี่ยนแปลงที่เพิ่มขึ้นในภายหลัง เมื่อมีข้อมูลใหม่มาถึงบัคเก็ต S3 ฟังก์ชันขั้นตอนของ AWS เวิร์กโฟลว์จะถูกทริกเกอร์ที่จัดเตรียมกิจกรรมแยก แปลง และโหลด (ETL) โดยใช้ AWS กาว โปรแกรมรวบรวมข้อมูลและ AWS กาว DataBrew- จากนั้นข้อมูลจะพร้อมใช้งานใน AWS Glue Data Catalog และสามารถสอบถามผ่านบริการต่างๆ เช่น อเมซอน อาเธน่า, อเมซอน QuickSightและ อเมซอน Redshift Spectrum- โซลูชันนี้เป็นแบบอัตโนมัติโดยสมบูรณ์และไร้เซิร์ฟเวอร์ ส่งผลให้ค่าใช้จ่ายในการดำเนินงานต่ำ เมื่อการตั้งค่านี้เสร็จสมบูรณ์ ข้อมูล Jira ของคุณจะถูกนำเข้าโดยอัตโนมัติและอัปเดตอยู่เสมอใน Data Lake ของคุณ!

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชัน

สถาปัตยกรรม Appflow ของ Jira จะปรากฏขึ้น ข้อมูล Jira Cloud ถูกดึงข้อมูลโดย Amazon AppFlow และจัดเก็บไว้ใน Amazon S3 ซึ่งจะทริกเกอร์เหตุการณ์ Amazon EventBridge ที่เรียกใช้เวิร์กโฟลว์ AWS Step Functions ขั้นตอนการทำงานใช้ AWS Glue เพื่อจัดทำแคตตาล็อกและแปลงข้อมูล จากนั้นข้อมูลจะถูกสืบค้นด้วย QuickSight

เวิร์กโฟลว์ Step Functions จัดกิจกรรม ETL ต่อไปนี้ ซึ่งส่งผลให้มี 2 ตาราง:

โปรแกรมรวบรวมข้อมูล AWS Glue รวบรวมการดาวน์โหลดทั้งหมดไว้ในตาราง AWS Glue ตารางเดียวที่มีชื่อว่า jira_raw- ตารางนี้ประกอบด้วยการดาวน์โหลดแบบเต็มและการดาวน์โหลดที่เพิ่มขึ้นจาก Jira โดยมีบันทึกเดียวกันหลายเวอร์ชันที่แสดงถึงการเปลี่ยนแปลงเมื่อเวลาผ่านไป
งาน DataBrew จะเตรียมข้อมูลสำหรับการรายงานโดยการคลายแพ็กคู่คีย์-ค่าในช่องต่างๆ ตลอดจนลบบันทึกที่เสื่อมค่าออกเมื่อมีการอัปเดตในการเก็บข้อมูลการเปลี่ยนแปลงที่ตามมา ข้อมูลที่พร้อมสำหรับการรายงานนี้จะพร้อมใช้งานในตาราง AWS Glue ที่ชื่อว่า jira_data.

รูปภาพต่อไปนี้แสดงเวิร์กโฟลว์ Step Functions

ไดอะแกรมแสดงถึงเวิร์กโฟลว์ AWS Step Functions ประกอบด้วยขั้นตอนในการเรียกใช้ AWS Crawler รอให้เสร็จสิ้น จากนั้นจึงเรียกใช้งานการแปลงข้อมูล AWS Glue DataBrew

เบื้องต้น

โซลูชันนี้ต้องการสิ่งต่อไปนี้:

สิทธิ์การเข้าถึงระดับผู้ดูแลระบบสำหรับอินสแตนซ์ Jira Cloud ของคุณและบัญชีนักพัฒนา Jira Cloud ที่เกี่ยวข้อง
An บัญชี AWS และการเข้าสู่ระบบด้วยการเข้าถึง คอนโซลการจัดการ AWS- คุณจะต้องเข้าสู่ระบบ AWS Identity และการจัดการการเข้าถึง สิทธิ์ (IAM) ในการสร้างและเข้าถึงทรัพยากรในบัญชี AWS ของคุณ
ความรู้พื้นฐานเกี่ยวกับ AWS และความรู้ในการทำงานของการบริหาร Jira

กำหนดค่าอินสแตนซ์ Jira

หลังจากเข้าสู่ระบบอินสแตนซ์ Jira Cloud คุณจะสร้างโปรเจ็กต์ Jira ที่มี Epic ที่เกี่ยวข้องและปัญหาเพื่อดาวน์โหลดลงใน Data Lake หากคุณเริ่มต้นด้วยอินสแตนซ์ Jira ใหม่ ควรมีอย่างน้อยหนึ่งโปรเจ็กต์ที่มีการสุ่มตัวอย่าง Epic และปัญหาสำหรับการดาวน์โหลดข้อมูลเริ่มต้น เนื่องจากช่วยให้คุณสร้างชุดข้อมูลเริ่มต้นได้โดยไม่มีข้อผิดพลาดหรือช่องขาดหายไป โปรดทราบว่าคุณอาจมีหลายโครงการเช่นกัน

รูปภาพแสดงตัวอย่าง Jira Cloud โดยมีหลายประเด็นที่จัดเรียงไว้ในกระดาน Kansan

หลังจากที่คุณสร้างโปรเจ็กต์ Jira ของคุณและเติมมหากาพย์และประเด็นต่างๆ ลงในโปรเจ็กต์แล้ว ตรวจสอบให้แน่ใจว่าคุณยังสามารถเข้าถึง พอร์ทัลนักพัฒนา Jira- ในขั้นตอนต่อๆ ไป คุณจะใช้พอร์ทัลนักพัฒนานี้เพื่อสร้างการตรวจสอบสิทธิ์และการอนุญาตสำหรับการเชื่อมต่อ Amazon AppFlow

จัดเตรียมทรัพยากรด้วย AWS CloudFormation

สำหรับการตั้งค่าเริ่มต้น คุณจะต้องเปิดไฟล์ การก่อตัวของ AWS Cloud stack เพื่อสร้างบัคเก็ต S3 เพื่อจัดเก็บข้อมูล บทบาท IAM สำหรับการเข้าถึงข้อมูล และส่วนประกอบ AWS Glue crawler และ Data Catalog ทำตามขั้นตอนต่อไปนี้:

ลงชื่อเข้าใช้บัญชี AWS ของคุณ
คลิก เรียกใช้ Stack:
สำหรับ ชื่อกองให้ป้อนชื่อสำหรับสแต็ก (ค่าเริ่มต้นคือ aws-blog-jira-datalake-with-AppFlow).
สำหรับ ชื่อฐานข้อมูลกาวให้ป้อนชื่อเฉพาะสำหรับฐานข้อมูล Data Catalog เพื่อเก็บข้อมูลเมตาของตารางข้อมูล Jira (ค่าเริ่มต้นคือ jiralake).
สำหรับ InitialRunFlagเลือก การติดตั้ง- โหมดนี้จะสแกนข้อมูลทั้งหมดและปิดใช้งานคุณสมบัติการเปลี่ยนแปลงข้อมูลการจับ (CDC) ของสแต็ก (เนื่องจากนี่คือการโหลดครั้งแรก สแต็กจึงต้องมีการโหลดข้อมูลเริ่มต้นก่อนที่คุณจะกำหนดค่า CDC ในขั้นตอนต่อๆ ไป)
ภายใต้ ความสามารถและการเปลี่ยนแปลงเลือกกล่องกาเครื่องหมายการรับทราบเพื่ออนุญาตให้สร้างทรัพยากร IAM ภายในบัญชี AWS ของคุณ
ตรวจสอบพารามิเตอร์และเลือก สร้าง stack เพื่อปรับใช้สแต็ก CloudFormation กระบวนการนี้จะใช้เวลาประมาณ 5-10 นาทีจึงจะเสร็จสมบูรณ์
หลังจากปรับใช้สแต็กแล้ว ให้ตรวจสอบ Outputs แท็บสำหรับสแต็กและรวบรวมค่าต่อไปนี้เพื่อใช้เมื่อคุณตั้งค่า Amazon AppFlow:
- บัคเก็ตปลายทางของ Amazon AppFlow (o01AppFlowBucket)
- เส้นทางบัคเก็ตปลายทางของ Amazon AppFlow (o02AppFlowPath)
- บทบาทสำหรับตัวเชื่อมต่อ Amazon AppFlow Jira (o03AppFlowRole)

กำหนดค่า Jira Cloud

จากนั้น ให้คุณกำหนดค่าอินสแตนซ์ Jira Cloud สำหรับการเข้าถึงโดย Amazon AppFlow สำหรับคำแนะนำแบบเต็ม โปรดดูที่ ตัวเชื่อมต่อ Jira Cloud สำหรับ Amazon AppFlow- ขั้นตอนต่อไปนี้จะสรุปคำแนะนำเหล่านี้และหารือเกี่ยวกับการกำหนดค่าเฉพาะเพื่อเปิดใช้ OAuth ใน Jira Cloud:

เปิด พอร์ทัลนักพัฒนา Jira.
สร้างการผสานรวม OAuth 2 จากคอนโซลแอปพลิเคชันสำหรับนักพัฒนาโดยเลือก สร้างบัญชีตัวแทน an บูรณาการ OAuth 2.0- นี่จะเป็นกลไกการเข้าสู่ระบบสำหรับ AppFlow
เปิดใช้งานการอนุญาตแบบละเอียด ดู ขอบเขตที่แนะนำ สำหรับการตั้งค่าสิทธิ์เพื่อให้ AppFlow เข้าถึงอินสแตนซ์ Jira ของคุณได้อย่างเหมาะสม
เพิ่มขอบเขตสิทธิ์ต่อไปนี้ลงในแอป OAuth ของคุณ:
1. manage:jira-configuration
2. read:field-configuration:jira
ภายใต้ การอนุญาต, ตั้งค่า URL โทรกลับ เพื่อกลับไปยัง Amazon AppFlow ด้วย URL https://us-east-1.console.aws.amazon.com/AppFlow/oauth.
ภายใต้ การตั้งค่าให้จดรหัสไคลเอ็นต์และข้อมูลลับเพื่อใช้ในขั้นตอนต่อๆ ไปเพื่อตั้งค่าการตรวจสอบสิทธิ์จาก Amazon AppFlow

สร้างการเชื่อมต่อ Amazon AppFlow Jira Cloud

ในขั้นตอนนี้ คุณจะกำหนดค่า Amazon AppFlow ให้เรียกใช้ข้อมูลทั้งหมดของคุณแบบเต็มเพียงครั้งเดียว โดยสร้าง Data Lake เริ่มต้น:

บนคอนโซล Amazon AppFlow ให้เลือก เชื่อมต่อ ในบานหน้าต่างนำทาง
ค้นหาตัวเชื่อมต่อ Jira Cloud
Choose สร้างกระแส บนไทล์ตัวเชื่อมต่อเพื่อสร้างการเชื่อมต่อกับอินสแตนซ์ Jira ของคุณ
สำหรับ ชื่อโฟลว์ ป้อนชื่อสำหรับโฟลว์ (เช่น JiraLakeFlow).
ออกจาก การเข้ารหัสข้อมูล การตั้งค่าเป็นค่าเริ่มต้น
Choose ถัดไป.
สำหรับ ชื่อแหล่งที่มา, ใช้ค่าเริ่มต้นของ จิรา คลาวด์.
Choose สร้างการเชื่อมต่อใหม่ ภายใต้ การเชื่อมต่อจิราคลาวด์.
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร เชื่อมต่อกับจิราคลาวด์ ส่วน ให้ป้อนค่าสำหรับ รหัสลูกค้า, ความลับของลูกค้าและ จิราคลาวด์ไซต์ ที่คุณรวบรวมไว้ก่อนหน้านี้ นี่เป็นการรับรองความถูกต้องจาก AppFlow ถึง Jira Cloud
สำหรับ ชื่อการเชื่อมต่อป้อนชื่อการเชื่อมต่อ (เช่น JiraLakeCloudConnection).
Choose เชื่อมต่อ- คุณจะได้รับแจ้งให้อนุญาตให้แอป OAuth เข้าถึงบัญชี Atlassian ของคุณเพื่อตรวจสอบการตรวจสอบสิทธิ์
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร อนุญาตแอป หน้าต่างที่ปรากฏขึ้น ให้เลือก ยอมรับ.
เมื่อสร้างการเชื่อมต่อแล้ว ให้กลับไปที่ กำหนดค่าโฟลว์ ส่วนบนคอนโซล Amazon AppFlow
สำหรับ เวอร์ชันเอพีไอเลือก V2 เพื่อใช้ API การค้นหา Jira ล่าสุด
สำหรับ วัตถุจิราคลาวด์เลือก »ÑËÒ เพื่อค้นหาและดาวน์โหลดประเด็นทั้งหมดและรายละเอียดที่เกี่ยวข้อง
สำหรับ ชื่อปลายทาง ใน รายละเอียดจุดหมายปลายทาง ส่วนเลือก Amazon S3.
สำหรับ รายละเอียดถังให้เลือกชื่อบัคเก็ต S3 ที่ตรงกับค่าบัคเก็ตปลายทางของ Amazon AppFlow ที่คุณรวบรวมจากเอาต์พุตของสแต็ก CloudFormation
ป้อนเส้นทางบัคเก็ตปลายทางของ Amazon AppFlow เพื่อดำเนินการเส้นทาง S3 แบบเต็ม การดำเนินการนี้จะส่งข้อมูล Jira ไปยังบัคเก็ต S3 ที่สร้างโดยสคริปต์ CloudFormation
ทิ้ง จัดทำรายการข้อมูลของคุณใน AWS Glue Data Catalog ไม่ได้เลือก สคริปต์ CloudFormation ใช้โปรแกรมรวบรวมข้อมูล AWS Glue เพื่ออัปเดต Data Catalog ในลักษณะอื่น โดยจัดกลุ่มการดาวน์โหลดทั้งหมดไว้ในตารางทั่วไป ดังนั้นเราจึงปิดใช้งานการอัปเดตที่นี่
สำหรับ การตั้งค่ารูปแบบไฟล์ให้เลือก รูปแบบปาร์เก้ และเลือก รักษาชนิดข้อมูลต้นฉบับในเอาต์พุต Parquet- ไม้ปาร์เก้เป็นรูปแบบเสาเพื่อเพิ่มประสิทธิภาพการสืบค้นในภายหลัง
เลือก เพิ่มการประทับเวลาให้กับชื่อไฟล์ for การตั้งค่าชื่อไฟล์- ซึ่งจะทำให้คุณสามารถค้นหาไฟล์ข้อมูลที่ดาวน์โหลดตามวันและเวลาที่ระบุได้อย่างง่ายดาย
ในตอนนี้ ให้เลือก รันออนดีมานด์ สำหรับ ทริกเกอร์การไหล เพื่อรันโฟลว์โหลดแบบเต็มด้วยตนเอง คุณจะกำหนดเวลาการดาวน์โหลดในขั้นตอนต่อมาเมื่อใช้ CDC
Choose ถัดไป.
เกี่ยวกับ แมปเขตข้อมูล ใหเลือก แมปฟิลด์ด้วยตนเอง.
สำหรับ การทำแผนที่ฟิลด์ต้นทางไปยังปลายทางให้เลือกช่องแบบเลื่อนลงด้านล่าง ชื่อช่องต้นทาง และเลือก แมปฟิลด์ทั้งหมดโดยตรง- การดำเนินการนี้จะดึงฟิลด์ทั้งหมดลงตามที่ได้รับ เนื่องจากเราจะใช้การเตรียมข้อมูลในขั้นตอนต่อๆ ไปแทน
ภายใต้ การตั้งค่าพาร์ติชันและการรวมกลุ่มคุณสามารถตั้งค่าพาร์ติชันในลักษณะที่เหมาะกับกรณีการใช้งานของคุณได้ สำหรับตัวอย่างนี้ เราใช้พาร์ติชันรายวัน ดังนั้นให้เลือก วันและเวลา และเลือก ทุกวัน.
สำหรับ การตั้งค่าการรวมกลุ่มปล่อยให้มันเป็นค่าเริ่มต้นของ อย่ารวมกัน.
Choose ถัดไป.
เกี่ยวกับ เพิ่มตัวกรอง คุณสามารถสร้างตัวกรองเพื่อดาวน์โหลดเฉพาะข้อมูลที่ต้องการได้ สำหรับตัวอย่างนี้ คุณดาวน์โหลดข้อมูลทั้งหมด ดังนั้นให้เลือก ถัดไป.
ตรวจสอบและเลือก สร้างกระแส.
เมื่อสร้างโฟลว์แล้ว ให้เลือก วิ่งไหล เพื่อเริ่มต้นการเพาะข้อมูลเบื้องต้น หลังจากนั้นสักครู่ คุณจะได้รับแบนเนอร์แจ้งว่าการวิ่งเสร็จสิ้นเรียบร้อยแล้ว

ตรวจสอบข้อมูลเมล็ดพันธุ์

ในขั้นตอนนี้ของกระบวนการ ขณะนี้คุณมีข้อมูลในสภาพแวดล้อม S3 ของคุณแล้ว เมื่อมีการสร้างไฟล์ข้อมูลใหม่ในบัคเก็ต S3 ระบบจะเรียกใช้โปรแกรมรวบรวมข้อมูล AWS Glue โดยอัตโนมัติเพื่อจัดทำแคตตาล็อกข้อมูลใหม่ คุณสามารถดูได้ว่าเสร็จสมบูรณ์หรือไม่โดยการตรวจสอบเครื่องสถานะ Step Functions สำหรับ ประสบความสำเร็จ สถานะการทำงาน มีลิงก์ไปยังเครื่องสถานะบนสแต็ก CloudFormation แหล่งข้อมูล ซึ่งจะนำคุณไปยังเครื่องสถานะ Step Functions

รูปภาพแสดงแท็บทรัพยากร CloudFormation ของสแต็ก พร้อมลิงก์ไปยังเวิร์กโฟลว์ AWS Step Functions

เมื่อเครื่องสถานะเสร็จสมบูรณ์ ก็ถึงเวลาตรวจสอบข้อมูลดิบของ Jira กับ Athena ฐานข้อมูลเป็นไปตามที่คุณระบุใน CloudFormation stack (jiralake โดยค่าเริ่มต้น) และชื่อตารางคือ jira_raw- หากคุณเก็บชื่อฐานข้อมูล AWS Glue เริ่มต้นไว้ jiralakeAthena SQL เป็นดังนี้:

SELECT * FROM "jiralake"."jira_raw" limit 10;

หากคุณสำรวจข้อมูล คุณจะสังเกตเห็นว่าข้อมูลส่วนใหญ่ที่คุณต้องการใช้งานนั้นจริงๆ แล้วบรรจุอยู่ในคอลัมน์ที่เรียกว่า fields- ซึ่งหมายความว่าข้อมูลจะไม่พร้อมใช้งานเป็นคอลัมน์ในการสืบค้น Athena ของคุณ ทำให้ยากต่อการเลือก กรอง และจัดเรียงแต่ละฟิลด์ภายในการสืบค้น Athena SQL สิ่งนี้จะได้รับการแก้ไขในขั้นตอนถัดไป

รูปภาพที่สาธิตการค้นหา Amazon Athena SELECT * FROM "jiralake"."jira_raw" จำกัด 10;

ตั้งค่า CDC และคลายคอลัมน์ฟิลด์

ในการเพิ่ม CDC ที่กำลังดำเนินอยู่และฟอร์แมตข้อมูลใหม่สำหรับการวิเคราะห์ เราขอแนะนำงาน DataBrew เพื่อแปลงข้อมูลและกรองเป็นเวอร์ชันล่าสุดของแต่ละบันทึกเมื่อมีการเปลี่ยนแปลงเข้ามา คุณสามารถทำได้โดยอัปเดตสแตก CloudFormation ด้วยแฟล็กที่มี CDC และขั้นตอนการแปลงข้อมูล

บนคอนโซล AWS CloudFormation ให้กลับไปที่สแต็ก
Choose บันทึก.
เลือก ใช้เทมเพลตปัจจุบัน และเลือก ถัดไป.
สำหรับ โปรแกรมติดตั้งOrCDCเลือก CDCแล้วเลือก ถัดไป- ซึ่งจะเปิดใช้งานทั้งขั้นตอน CDC และขั้นตอนการแปลงข้อมูลสำหรับข้อมูล Jira
เลือกต่อไป ถัดไป จนกระทั่งถึง รีวิว มาตรา.
เลือก ฉันรับทราบว่า AWS CloudFormation อาจสร้างทรัพยากร IAMแล้วเลือก ส่ง.
กลับไปที่คอนโซล Amazon AppFlow แล้วเปิดโฟลว์ของคุณ
เกี่ยวกับ สถานะ เมนูให้เลือก แก้ไขโฟลว์- ตอนนี้เราจะแก้ไขทริกเกอร์โฟลว์เพื่อเรียกใช้การโหลดที่เพิ่มขึ้นเป็นระยะๆ
เลือก เรียกใช้โฟลว์ตามกำหนดเวลา.
กำหนดค่าการทำซ้ำที่ต้องการ รวมถึงเวลาและวันที่เริ่มต้น สำหรับตัวอย่างนี้ เราเลือก ทุกวัน for ซ้ำ และป้อน 1 สำหรับจำนวนวันที่คุณจะมีทริกเกอร์โฟลว์ สำหรับ เริ่มต้นที่, เข้า 01:00 น.
เลือก การถ่ายโอนที่เพิ่มขึ้น for โหมดถ่ายโอน.
Choose วันที่อัพเดท บนเมนูแบบเลื่อนลงเพื่อให้บันทึกการเปลี่ยนแปลงตามเวลาที่อัปเดตบันทึก
Choose ลด- ด้วยการตั้งค่าเหล่านี้ในตัวอย่างของเรา การวิ่งจะเกิดขึ้นทุกคืนเวลา 1:00 น.

ตรวจสอบข้อมูลการวิเคราะห์

เมื่อโหลดส่วนเพิ่มครั้งถัดไปเกิดขึ้นซึ่งส่งผลให้เกิดข้อมูลใหม่ เวิร์กโฟลว์ Step Functions จะเริ่มงาน DataBrew และเติมตารางข้อมูลเชิงวิเคราะห์แบบเป็นขั้นใหม่ชื่อ jira_data ในฐานข้อมูล Data Catalog ของคุณ หากคุณไม่ต้องการรอ คุณสามารถทริกเกอร์เวิร์กโฟลว์ Step Functions ได้ด้วยตนเอง

งาน DataBrew ดำเนินการแปลงข้อมูลและงานกรอง งานจะแยกคีย์-ค่าออกจากข้อมูล Jira JSON และข้อมูลดิบของ Jira ส่งผลให้เกิดสคีมาข้อมูลแบบตารางที่อำนวยความสะดวกในการใช้งานกับเครื่องมือ BI และ AI/ML เมื่อรายการ Jira มีการเปลี่ยนแปลง ข้อมูลของรายการที่เปลี่ยนแปลงจะถูกส่งอีกครั้ง ส่งผลให้รายการมีหลายเวอร์ชันในฟีดข้อมูลดิบ งาน DataBrew กรองฟีดข้อมูลดิบเพื่อให้ตารางข้อมูลผลลัพธ์มีเฉพาะเวอร์ชันล่าสุดของแต่ละรายการเท่านั้น คุณสามารถปรับปรุงงาน DataBrew นี้เพื่อปรับแต่งข้อมูลตามความต้องการของคุณเพิ่มเติมได้ เช่น การเปลี่ยนชื่อฟิลด์ที่กำหนดเองของ Jira ทั่วไปเพื่อให้สะท้อนถึงความหมายทางธุรกิจ

เมื่อเวิร์กโฟลว์ Step Functions เสร็จสมบูรณ์ เราสามารถสืบค้นข้อมูลใน Athena ได้อีกครั้งโดยใช้แบบสอบถามต่อไปนี้:

SELECT * FROM "jiralake"."jira_data" limit 10;

คุณจะเห็นได้ว่าในการเปลี่ยนแปลงของเรา jira_data ตาราง ฟิลด์ JSON ที่ซ้อนกันจะแบ่งออกเป็นคอลัมน์ของตัวเองสำหรับแต่ละฟิลด์ นอกจากนี้ คุณจะสังเกตเห็นว่าเราได้กรองบันทึกที่ล้าสมัยซึ่งถูกแทนที่ด้วยการอัปเดตบันทึกล่าสุดในการโหลดข้อมูลในภายหลัง เพื่อให้ข้อมูลมีความสดใหม่ หากคุณต้องการเปลี่ยนชื่อช่องที่กำหนดเอง ลบคอลัมน์ หรือปรับโครงสร้างสิ่งที่ออกมาจาก JSON ที่ซ้อนกัน คุณสามารถแก้ไขสูตร DataBrew เพื่อให้บรรลุเป้าหมายนี้ได้ ณ จุดนี้ ข้อมูลก็พร้อมที่จะใช้งานโดยเครื่องมือวิเคราะห์ของคุณ เช่น อเมซอน QuickSight.

รูปภาพที่สาธิตการสืบค้น Amazon Athena SELECT * FROM "jiralake"."jira_data" จำกัด 10;

ทำความสะอาด

หากคุณต้องการยุติโซลูชันนี้ คุณสามารถลบออกได้โดยทำตามขั้นตอนต่อไปนี้:

บนคอนโซล Amazon AppFlow ให้ปิดใช้งานโฟลว์สำหรับ Jira และเลือกลบออกได้
บนคอนโซล Amazon S3 ให้เลือกบัคเก็ต S3 สำหรับสแต็ก และล้างบัคเก็ตเพื่อลบข้อมูลที่มีอยู่
บนคอนโซล AWS CloudFormation ให้ลบสแต็ก CloudFormation ที่คุณปรับใช้

สรุป

ในโพสต์นี้ เราได้สร้างกระบวนการโหลดข้อมูลส่วนเพิ่มแบบไร้เซิร์ฟเวอร์สำหรับ Jira ที่จะซิงโครไนซ์ข้อมูลในขณะที่จัดการฟิลด์ที่กำหนดเองโดยใช้ Amazon AppFlow, AWS Glue และ Step Functions วิธีการนี้ใช้ Amazon AppFlow เพื่อโหลดข้อมูลลงใน Amazon S3 เพิ่มขึ้น จากนั้นเราใช้ AWS Glue และ Step Functions เพื่อจัดการการแยกฟิลด์ที่กำหนดเองของ Jira และโหลดฟิลด์เหล่านั้นในรูปแบบที่จะสอบถามโดยบริการการวิเคราะห์ เช่น Athena, QuickSight หรือ Redshift Spectrum หรือบริการ AI/ML เช่น อเมซอน SageMaker.

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ AWS Glue และ DataBrew โปรดดูที่ เริ่มต้นใช้งาน AWS Glue DataBrew- ด้วย DataBrew คุณสามารถนำตัวอย่างการแปลงข้อมูลในโปรเจ็กต์นี้และปรับแต่งเอาต์พุตให้ตรงกับความต้องการเฉพาะของคุณได้ ซึ่งอาจรวมถึงการเปลี่ยนชื่อคอลัมน์ การสร้างฟิลด์เพิ่มเติม และอื่นๆ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Amazon AppFlow โปรดดูที่ เริ่มต้นใช้งาน Amazon AppFlow- โปรดทราบว่า Amazon AppFlow รองรับการผสานรวมกับแอปพลิเคชัน SaaS จำนวนมาก นอกเหนือจาก Jira Cloud

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการจัดเตรียมโฟลว์ด้วย Step Functions โปรดดู สร้างเวิร์กโฟลว์แบบไร้เซิร์ฟเวอร์ด้วย AWS Step Functions และ AWS Lambda- เวิร์กโฟลว์สามารถปรับปรุงเพื่อโหลดข้อมูลลงในคลังข้อมูลได้ เช่น อเมซอน Redshiftหรือทริกเกอร์การรีเฟรชชุดข้อมูล QuickSight สำหรับการวิเคราะห์และการรายงาน

ในโพสต์ต่อๆ ไป เราจะกล่าวถึงวิธีการแยกความสัมพันธ์ระหว่างพ่อแม่และลูกภายในข้อมูล Jira โดยใช้ Athena และวิธีการแสดงภาพข้อมูลโดยใช้ QuickSight

เกี่ยวกับผู้เขียน

ทอม โรมาโน เป็นสถาปนิกโซลูชันอาวุโสสำหรับ AWS World Wide Public Sector จากแทมปา รัฐฟลอริดา และช่วยเหลือลูกค้า GovTech และ EdTech ในขณะที่พวกเขาสร้างโซลูชันใหม่ที่เป็นระบบคลาวด์เนทิฟ ขับเคลื่อนด้วยเหตุการณ์ และไม่มีเซิร์ฟเวอร์ เขาเป็นโปรแกรมเมอร์ Python ที่กระตือรือร้นทั้งในด้านการพัฒนาแอปพลิเคชันและการวิเคราะห์ข้อมูล และเป็นผู้เชี่ยวชาญด้านการวิเคราะห์ ในเวลาว่าง ทอมบินเครื่องบินจำลองควบคุมระยะไกลและสนุกกับการพักผ่อนกับครอบครัวทั่วฟลอริดาและแคริบเบียน

เชน ทอมป์สัน เป็น Sr. Solutions Architect ในเมืองซานหลุยส์โอบิสโป รัฐแคลิฟอร์เนีย โดยทำงานร่วมกับ AWS Startups เขาทำงานร่วมกับลูกค้าที่ใช้ AI/ML ในรูปแบบธุรกิจของตน และมีความหลงใหลในการทำให้ AI/ML เป็นประชาธิปไตย เพื่อให้ลูกค้าทุกคนได้รับประโยชน์จากสิ่งนี้ ในเวลาว่าง Shane ชอบที่จะใช้เวลากับครอบครัวและท่องเที่ยวรอบโลก

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/big-data/empower-your-jira-data-in-a-data-lake-with-amazon-appflow-and-aws-glue/

ประทับเวลา: สิงหาคม 1, 2023

ประทับเวลา: ธันวาคม 19, 2022

เผยแพร่ซ้ำโดยเพลโต

สตรีมบันทึกโฟลว์ VPC ไปยัง Datadog ผ่าน Amazon Kinesis Data Firehose | บริการเว็บอเมซอน

พัฒนาสคีมาอัตโนมัติตามขนาดด้วย Apache Hudi ใน AWS Glue

ขอแนะนำการสนับสนุนแบบเนทีฟสำหรับ Apache Hudi, Delta Lake และ Apache Iceberg บน AWS Glue สำหรับ Apache Spark ตอนที่ 1: เริ่มต้นใช้งาน

Amazon QuickSight ช่วยให้ TalentReef ช่วยให้ลูกค้าสามารถตัดสินใจจ้างงานได้อย่างมีข้อมูลมากขึ้น

ใช้การจับคู่สตริงแบบคลุมเครือเพื่อประมาณระเบียนที่ซ้ำกันใน Amazon Redshift

ขอแนะนำการรองรับ Apache Hudi ด้วยโปรแกรมรวบรวมข้อมูล AWS Glue | อเมซอนเว็บเซอร์วิส

Stitch Fix การโยกย้ายที่ราบรื่น: การเปลี่ยนจาก Kafka ที่จัดการด้วยตนเองไปเป็น Amazon MSK | อเมซอนเว็บเซอร์วิส

ขอแนะนำการสนับสนุนตาราง Delta Lake ดั้งเดิมด้วยโปรแกรมรวบรวมข้อมูล AWS Glue

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้