การวิเคราะห์ข้อมูลโดยใช้ Scala
การเลือกเครื่องมือที่เหมาะสมสำหรับการวิเคราะห์ข้อมูลเป็นสิ่งสำคัญมาก ในฟอรัม Kaggle ซึ่งมีการแข่งขัน Data Science ระดับนานาชาติ ผู้คนมักถามว่าเครื่องมือใดดีกว่ากัน R และ Python อยู่ที่ด้านบนสุดของรายการ ในบทความนี้ เราจะบอกคุณเกี่ยวกับกลุ่มเทคโนโลยีการวิเคราะห์ข้อมูลทางเลือกอื่น โดยอิงตาม Scala
By โรมัน Zykov, ผู้ก่อตั้ง/นักวิทยาศาสตร์ข้อมูล @ TopDataLab
การเลือกเครื่องมือที่เหมาะสมสำหรับการวิเคราะห์ข้อมูลเป็นสิ่งสำคัญมาก บน Kaggle.com ฟอรัมที่มีการแข่งขัน Data Science ระดับนานาชาติ ผู้คนมักถามว่าเครื่องมือใดดีกว่ากัน R และ Python อยู่ที่ด้านบนสุดของรายการ ในบทความนี้ เราจะบอกคุณเกี่ยวกับเทคโนโลยีการวิเคราะห์ข้อมูลอีกกลุ่มหนึ่ง โดยอิงจากภาษาโปรแกรม Scala และ จุดประกาย แพลตฟอร์มการคำนวณแบบกระจาย
เราเกิดขึ้นได้อย่างไร? ที่ Retail Rocket เราทำการเรียนรู้ด้วยเครื่องจำนวนมากในชุดข้อมูลขนาดใหญ่ เราเคยใช้ IPython + Pyhs2 (ไดรเวอร์กลุ่มสำหรับ Python) + Pandas + Sklearn เพื่อพัฒนาต้นแบบ เมื่อสิ้นสุดฤดูร้อนปี 2014 เราได้ตัดสินใจขั้นพื้นฐานเพื่อเปลี่ยนไปใช้ Spark เนื่องจากการทดลองแสดงให้เห็นว่าเราจะได้รับการปรับปรุงประสิทธิภาพ 3-4 เท่าในที่จอดเดียวกันของเซิร์ฟเวอร์
ข้อดีอีกประการหนึ่งคือเราสามารถใช้ภาษาการเขียนโปรแกรมหนึ่งภาษาสำหรับการสร้างแบบจำลองและโค้ดที่จะทำงานบนเซิร์ฟเวอร์ที่ใช้งานจริง นี่เป็นประโยชน์อย่างมากสำหรับเรา เนื่องจากก่อนหน้านี้เราใช้ 4 ภาษาพร้อมกัน: Hive, Pig, Java, Python เป็นปัญหาสำหรับทีมวิศวกรเล็กๆ
Spark รองรับการทำงานกับ Python/Scala/Java ผ่าน API ได้เป็นอย่างดี เราตัดสินใจเลือก Scala เนื่องจากเป็นภาษาที่ Spark เขียน ซึ่งหมายความว่าเราสามารถวิเคราะห์ซอร์สโค้ดและแก้ไขจุดบกพร่องได้ หากจำเป็น นอกจากนี้ยังเป็น JVM ที่ Hadoop ทำงาน
ฉันต้องบอกว่าการเลือกนั้นไม่ง่ายเพราะไม่มีใครในทีมรู้จักสกาล่าในตอนนั้น
เป็นที่ทราบกันดีอยู่แล้วว่าการเรียนรู้ที่จะสื่อสารในภาษาใดภาษาหนึ่งได้ดีนั้น คุณต้องซึมซับภาษาและใช้มันให้มากที่สุด ดังนั้นเราจึงละทิ้ง Python stack เพื่อสนับสนุน Scala สำหรับการสร้างแบบจำลองและการวิเคราะห์ข้อมูลที่รวดเร็ว
ขั้นตอนแรกคือการหาอุปกรณ์ทดแทนโน้ตบุ๊ก IPython ตัวเลือกมีดังนี้:
- Zeppelin - โน้ตบุ๊กที่เหมือน IPython สำหรับ Spark;
- ไอสปาร์ก;
- โน๊ตบุ๊คประกายไฟ;
- โน้ตบุ๊ก Spark IPython ของ IBM
- อาปาเช่ ทีโอรี
จนถึงตอนนี้ ทางเลือกคือ ISpark เพราะมันเรียบง่าย – คือ IPython สำหรับ Scala/Spark เป็นเรื่องง่ายมากที่จะโบลต์กราฟิก HighCharts และ R และเราไม่มีปัญหาในการเชื่อมต่อกับคลัสเตอร์เส้นด้าย
งาน
มาลองตอบคำถามกัน: ยอดซื้อเฉลี่ย (AOV) ในร้านค้าออนไลน์ของคุณขึ้นอยู่กับพารามิเตอร์ของลูกค้าแบบคงที่ ซึ่งรวมถึงการชำระเงิน ประเภทเบราว์เซอร์ (มือถือ/เดสก์ท็อป) ระบบปฏิบัติการ และเวอร์ชันของเบราว์เซอร์หรือไม่ คุณสามารถทำได้ด้วย ข้อมูลร่วมกัน.
เราใช้เอนโทรปีเป็นจำนวนมากสำหรับอัลกอริธึมและการวิเคราะห์คำแนะนำของเรา: สูตรแชนนอนคลาสสิก, ความแตกต่างของ Kullback-Leibler, ข้อมูลร่วมกัน เรายังส่งบทความเกี่ยวกับหัวข้อนี้ มีส่วนที่แยกออกมา แม้ว่าจะมีขนาดเล็ก ซึ่งอุทิศให้กับมาตรการเหล่านี้ในหนังสือเรียนเกี่ยวกับการเรียนรู้ของเครื่องที่มีชื่อเสียงของเมอร์ฟี
มาวิเคราะห์กับข้อมูล Retail Rocket จริงกัน ก่อนหน้านี้ฉันคัดลอกตัวอย่างจากคลัสเตอร์ของเราไปยังคอมพิวเตอร์เป็นไฟล์ csv
ข้อมูล
ที่นี่เราใช้ ISpark และ Spark ที่ทำงานในโหมดโลคัล ซึ่งหมายความว่าการคำนวณทั้งหมดจะดำเนินการในเครื่องและกระจายไปตามคอร์ของโปรเซสเซอร์ ทุกอย่างอธิบายไว้ในความคิดเห็นของโค้ด สิ่งที่สำคัญที่สุดคือในเอาต์พุตเราได้รับ RDD (โครงสร้างข้อมูล Spark) ซึ่งเป็นชุดของคลาสเคสของประเภท Row ซึ่งกำหนดไว้ในโค้ด ซึ่งจะทำให้คุณสามารถอ้างถึงฟิลด์ต่างๆ ผ่านทาง “.” เช่น _.categoryId
ที่มา: https://www.kdnuggets.com/2021/09/data-analysis-scala.html
- "
- &
- 100
- ความได้เปรียบ
- อัลกอริทึม
- ทั้งหมด
- อเมซอน
- ในหมู่
- การวิเคราะห์
- อาปาเช่
- APIs
- ปพลิเคชัน
- บทความ
- สายฟ้า
- เบราว์เซอร์
- เป็นโรคจิต
- สร้าง
- พวง
- เปลี่ยนแปลง
- ชาร์ต
- รหัส
- ความคิดเห็น
- การแข่งขัน
- การคำนวณ
- ข้อมูล
- การวิเคราะห์ข้อมูล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- การซื้อขาย
- การเรียนรู้ลึก ๆ
- พัฒนา
- DID
- คอมพิวเตอร์แบบกระจาย
- คนขับรถ
- ชั้นเยี่ยม
- วิศวกร
- ฯลฯ
- Excel
- ประสบการณ์
- การทดลอง
- การสำรวจ
- ใบหน้า
- ครอบครัว
- FAST
- คุณสมบัติ
- สาขา
- ชื่อจริง
- แก้ไขปัญหา
- ผู้สร้าง
- กรอบ
- GitHub
- Hadoop
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- รัง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ใหญ่
- ข้อมูล
- การโต้ตอบ
- International
- IT
- ชวา
- ภาษา
- ภาษา
- ใหญ่
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- Line
- รายการ
- ในประเทศ
- ในท้องถิ่น
- นาน
- เรียนรู้เครื่อง
- เครื่อง
- คณิตศาสตร์
- ตัวชี้วัด
- ไมโครซอฟท์
- การสร้างแบบจำลอง
- เป็นที่นิยม
- โน๊ตบุ๊ค
- ออนไลน์
- ร้านค้าออนไลน์
- เปิด
- โอเพนซอร์ส
- การดำเนินงาน
- ระบบปฏิบัติการ
- Options
- ใบสั่ง
- ผลิตภัณฑ์อื่นๆ
- กระดาษ
- คน
- การปฏิบัติ
- มุมมอง
- ฟิสิกส์
- เวที
- ยอดนิยม
- ผลงาน
- การผลิต
- การเขียนโปรแกรม
- โครงการ
- ซื้อ
- หลาม
- ค้าปลีก
- วิ่ง
- วิ่ง
- สกาล่า
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ชุด
- การตั้งถิ่นฐาน
- ง่าย
- ขนาด
- ทักษะ
- เล็ก
- So
- ซอฟต์แวร์
- ช่องว่าง
- จัดเก็บ
- จำนวนชั้น
- ส่ง
- ฤดูร้อน
- ที่สนับสนุน
- รองรับ
- สวิตซ์
- ระบบ
- เทคโนโลยี
- การทดสอบ
- กราฟ
- เวลา
- ด้านบน
- เอกภาพ
- URI
- us
- ความคุ้มค่า
- เว็บ
- วิกิพีเดีย
- หน้าต่าง
- งาน
- X
- ปี
- เป็นศูนย์