Amazon SageMaker ข้อมูล Wrangler ลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาที ด้วย Data Wrangler คุณสามารถเลือกและสืบค้นข้อมูลได้ด้วยการคลิกเพียงไม่กี่ครั้ง แปลงข้อมูลอย่างรวดเร็วด้วยการแปลงข้อมูลในตัวมากกว่า 300 รายการ และทำความเข้าใจข้อมูลของคุณด้วยการสร้างภาพข้อมูลในตัวโดยไม่ต้องเขียนโค้ดใดๆ
นอกจากนี้ คุณสามารถสร้าง แปลงร่างเอง เฉพาะกับความต้องการของคุณ การแปลงแบบกำหนดเองทำให้คุณสามารถเขียนการแปลงแบบกำหนดเองโดยใช้ PySpark, Pandas หรือ SQL
ขณะนี้ Data Wrangler รองรับการกำหนดเอง ฟังก์ชั่นกำหนดโดยผู้ใช้ Pandas (UDF) การแปลงที่สามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ คุณสามารถเลือกโหมด Pandas UDF แบบกำหนดเองได้สองโหมด: Pandas และ Python ทั้งสองโหมดเป็นโซลูชันที่มีประสิทธิภาพในการประมวลผลชุดข้อมูล และโหมดที่คุณเลือกจะขึ้นอยู่กับความชอบของคุณ
ในโพสต์นี้ เราสาธิตวิธีใช้การแปลง Pandas UDF ใหม่ในโหมดใดโหมดหนึ่ง
ภาพรวมโซลูชัน
ในขณะที่เขียนนี้ คุณสามารถนำเข้าชุดข้อมูลไปยัง Data Wrangler จาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่า, อเมซอน Redshift, Databricks และ Snowflake สำหรับโพสต์นี้ เราใช้ Amazon S3 เพื่อจัดเก็บ 2014 ชุดข้อมูลรีวิวของ Amazon.
ข้อมูลมีคอลัมน์ที่เรียกว่า reviewText
มีข้อความที่ผู้ใช้สร้างขึ้น ข้อความยังมีหลาย หยุดคำซึ่งเป็นคำทั่วไปที่ไม่ได้ให้ข้อมูลมากนัก เช่น “a” “an” และ “the” การนำคำหยุดออกเป็นขั้นตอนทั่วไปในการประมวลผลล่วงหน้าในไปป์ไลน์การประมวลผลภาษาธรรมชาติ (NLP) เราสามารถสร้างฟังก์ชันที่กำหนดเองเพื่อลบคำหยุดออกจากบทวิจารณ์ได้
สร้างการแปลง UDF ของ Pandas แบบกำหนดเอง
มาดูขั้นตอนการสร้าง UDF ของ Pandas แบบกำหนดเองของ Data Wrangler สองแบบโดยใช้โหมด Pandas และ Python
- ดาวน์โหลด ชุดข้อมูลรีวิวเพลงดิจิตอล และอัปโหลดไปยัง Amazon S3
- จุดเปิด สตูดิโอ Amazon SageMaker และสร้างโฟลว์ Data Wrangler ใหม่
- ภายใต้ นำเข้าข้อมูลเลือก Amazon S3 และนำทางไปยังตำแหน่งชุดข้อมูล
- สำหรับ ประเภทไฟล์เลือก jsonl.
การแสดงตัวอย่างข้อมูลควรแสดงในตาราง
- Choose นำเข้า เพื่อดำเนินการต่อ.
- หลังจากนำเข้าข้อมูลของคุณแล้ว ให้เลือกเครื่องหมายบวกที่อยู่ถัดจาก ประเภทข้อมูล และเลือก เพิ่มการแปลง.
- Choose แปลงร่างเอง.
- บนเมนูดรอปดาวน์ Python (ฟังก์ชันที่ผู้ใช้กำหนด).
ตอนนี้เราสร้างการแปลงแบบกำหนดเองเพื่อลบคำหยุด
- ระบุคอลัมน์อินพุต คอลัมน์เอาต์พุต ประเภทการส่งคืน และโหมดของคุณ
ตัวอย่างต่อไปนี้ใช้โหมด Pandas ซึ่งหมายความว่าฟังก์ชันควรยอมรับและส่งกลับชุด Pandas ที่มีความยาวเท่ากัน คุณสามารถนึกถึงชุด Pandas เป็นคอลัมน์ในตารางหรือส่วนย่อยของคอลัมน์ นี่เป็นโหมด UDF ของ Pandas ที่มีประสิทธิภาพมากที่สุด เนื่องจาก Pandas สามารถสร้างเวกเตอร์การดำเนินการข้ามชุดของค่าต่างๆ ได้ แทนที่จะทำทีละรายการ ดิ pd.Series
ต้องใช้คำแนะนำประเภทในโหมด Pandas
หากคุณต้องการใช้ Python ล้วนๆ แทนที่จะเป็น Pandas API โหมด Python อนุญาตให้คุณระบุฟังก์ชัน Python แท้ที่ยอมรับอาร์กิวเมนต์เดียวและส่งกลับค่าเดียว ตัวอย่างต่อไปนี้เทียบเท่ากับโค้ด Pandas ก่อนหน้าในแง่ของผลลัพธ์ ไม่จำเป็นต้องใช้คำแนะนำประเภทในโหมด Python
- Choose เพิ่ม เพื่อเพิ่มการแปลงที่คุณกำหนดเอง
สรุป
Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการ และคุณยังสามารถเพิ่มการแปลงแบบกำหนดเองได้ตามความต้องการของคุณ ในโพสต์นี้ เราสาธิตวิธีประมวลผลชุดข้อมูลด้วยการแปลง Pandas UDF แบบกำหนดเองของ Data Wrangler โดยใช้ทั้งโหมด Pandas และ Python คุณสามารถใช้โหมดใดก็ได้ตามความต้องการของคุณ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler โปรดดูที่ สร้างและใช้ Data Wrangler Flow.
เกี่ยวกับผู้เขียน
เบนแฮร์ริส เป็นวิศวกรซอฟต์แวร์ที่มีประสบการณ์ในการออกแบบ ปรับใช้ และบำรุงรักษาไปป์ไลน์ข้อมูลที่ปรับขนาดได้และโซลูชันการเรียนรู้ของเครื่องในโดเมนต่างๆ เบ็นได้สร้างระบบสำหรับการเก็บรวบรวมและการติดฉลากข้อมูล การจัดประเภทรูปภาพและข้อความ การสร้างแบบจำลองตามลำดับ การฝัง และการจัดกลุ่ม และอื่นๆ
ไฮเดอร์ นาควี เป็นสถาปนิกโซลูชันที่ AWS เขามีประสบการณ์ด้านการพัฒนาซอฟต์แวร์และสถาปัตยกรรมองค์กรอย่างกว้างขวาง เขามุ่งเน้นที่การทำให้ลูกค้าบรรลุผลทางธุรกิจด้วย AWS เขามาจากนิวยอร์ก
วิชาล ศรีวัสทาวา เป็นผู้จัดการบัญชีด้านเทคนิคของ AWS ด้วยพื้นฐานด้านการพัฒนาซอฟต์แวร์และการวิเคราะห์ เขาทำงานกับภาคบริการทางการเงินและลูกค้าธุรกิจดิจิทัลเป็นหลัก และสนับสนุนการเดินทางบนคลาวด์ของพวกเขา เวลาว่างชอบไปเที่ยวกับครอบครัว
- "
- 10
- 100
- 9
- เกี่ยวกับเรา
- ลงชื่อเข้าใช้
- ข้าม
- อเมซอน
- ในหมู่
- การวิเคราะห์
- API
- สถาปัตยกรรม
- ใช้ได้
- AWS
- พื้นหลัง
- built-in
- ธุรกิจ
- Choose
- การจัดหมวดหมู่
- เมฆ
- รหัส
- ชุด
- คอลัมน์
- ร่วมกัน
- มี
- สร้าง
- การสร้าง
- ประเพณี
- ลูกค้า
- ข้อมูล
- สาธิต
- แสดงให้เห็นถึง
- ขึ้นอยู่กับ
- ปรับใช้
- การออกแบบ
- พัฒนาการ
- ดิจิตอล
- โดเมน
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- การเปิดใช้งาน
- วิศวกร
- Enterprise
- ตัวอย่าง
- ประสบการณ์
- กว้างขวาง
- ครอบครัว
- ทางการเงิน
- บริการทางการเงิน
- ไหล
- มุ่งเน้นไปที่
- ดังต่อไปนี้
- ฟรี
- ฟังก์ชัน
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ภาพ
- ข้อมูล
- อินพุต
- IT
- ร่วม
- การติดฉลาก
- ภาษา
- ใหญ่
- เรียนรู้
- การเรียนรู้
- ที่ตั้ง
- เครื่อง
- เรียนรู้เครื่อง
- ผู้จัดการ
- การจับคู่
- ML
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ดนตรี
- โดยธรรมชาติ
- นิวยอร์ก
- การดำเนินการ
- เตรียมการ
- ดูตัวอย่าง
- กระบวนการ
- การประมวลผล
- ให้
- รวดเร็ว
- อย่างรวดเร็ว
- จำเป็นต้องใช้
- ความต้องการ
- กลับ
- รับคืน
- รีวิว
- ที่ปรับขนาดได้
- ภาค
- ชุด
- บริการ
- ง่าย
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- วิศวกรซอฟต์แวร์
- ทางออก
- โซลูชัน
- ช่องว่าง
- การเก็บรักษา
- จัดเก็บ
- รองรับ
- ระบบ
- วิชาการ
- ตลอด
- เวลา
- โทเค็น
- ราชสกุล
- แปลง
- การเดินทาง
- เข้าใจ
- เป็นเอกลักษณ์
- ใช้
- ความคุ้มค่า
- ความหลากหลาย
- ไม่มี
- คำ
- โรงงาน
- การเขียน