Phân tích dữ liệu bằng Scala

tags: Khoa học dữ liệu, Machine Learning, Scala, Spark, YARN

Điều rất quan trọng là chọn đúng công cụ để phân tích dữ liệu. Trên các diễn đàn Kaggle, nơi tổ chức các cuộc thi Khoa học dữ liệu quốc tế, mọi người thường hỏi công cụ nào tốt hơn. R và Python đứng đầu danh sách. Trong bài viết này, chúng tôi sẽ cho bạn biết về một nhóm công nghệ phân tích dữ liệu thay thế, dựa trên Scala.

Bình luận

By La Mã Zykov, Người sáng lập/Nhà khoa học dữ liệu @ TopDataLab

Điều rất quan trọng là chọn đúng công cụ để phân tích dữ liệu. trên Kaggle.com các diễn đàn, nơi tổ chức các cuộc thi Khoa học dữ liệu quốc tế, mọi người thường hỏi công cụ nào tốt hơn. R và Python đứng đầu danh sách. Trong bài viết này, chúng tôi sẽ cho bạn biết về một nhóm công nghệ phân tích dữ liệu thay thế, dựa trên ngôn ngữ lập trình Scala và Spark nền tảng điện toán phân tán.

Làm thế nào mà chúng tôi đưa ra với nó? Tại Retail Rocket, chúng tôi thực hiện rất nhiều hoạt động học máy trên các tập dữ liệu rất lớn. Chúng tôi đã từng sử dụng một loạt IPython + Pyhs2 (trình điều khiển hive cho Python) + Pandas + Sklearn để phát triển các nguyên mẫu. Vào cuối mùa hè năm 2014, chúng tôi đã đưa ra quyết định cơ bản là chuyển sang Spark, vì các thử nghiệm đã chỉ ra rằng chúng tôi sẽ nhận được hiệu suất cải thiện gấp 3-4 lần trên cùng một nhóm máy chủ.

Một lợi thế khác là chúng ta có thể sử dụng một ngôn ngữ lập trình để lập mô hình và mã sẽ chạy trên các máy chủ sản xuất. Đây là một lợi ích to lớn đối với chúng tôi, vì trước đây chúng tôi sử dụng đồng thời 4 ngôn ngữ: Hive, Pig, Java, Python. Đó là một vấn đề đối với một nhóm nhỏ các kỹ sư.

Spark hỗ trợ làm việc tốt với Python/Scala/Java thông qua API. Chúng tôi quyết định chọn Scala vì đó là ngôn ngữ mà Spark được viết, có nghĩa là chúng tôi có thể phân tích mã nguồn của nó và sửa lỗi nếu cần. Nó cũng là JVM mà Hadoop chạy trên đó.

Tôi phải nói rằng sự lựa chọn không hề dễ dàng, vì không ai trong nhóm biết Scala vào thời điểm đó.
Một thực tế nổi tiếng là để học cách giao tiếp tốt bằng một ngôn ngữ, bạn cần đắm mình trong ngôn ngữ đó và sử dụng nó càng nhiều càng tốt. Vì vậy, chúng tôi đã từ bỏ ngăn xếp Python để chuyển sang Scala để lập mô hình và phân tích dữ liệu nhanh.

Bước đầu tiên là tìm một sự thay thế cho sổ ghi chép IPython. Các tùy chọn như sau:

Zeppelin – sổ ghi chép giống IPython dành cho Spark;
công viên ISpark;
Máy tính xách tay Spark;
Máy tính xách tay Spark IPython của IBM.
Apache Tquặng

Cho đến nay, sự lựa chọn là ISpark vì nó đơn giản – đó là IPython cho Scala/Spark. Việc sử dụng đồ họa HighCharts và R tương đối dễ dàng. Và chúng tôi không gặp vấn đề gì khi kết nối nó với cụm Sợi.

Nhiệm vụ

Hãy thử trả lời câu hỏi: số lượng mua trung bình (AOV) trong cửa hàng trực tuyến của bạn có phụ thuộc vào các thông số khách hàng tĩnh, bao gồm thanh toán, loại trình duyệt (di động/Máy tính để bàn), hệ điều hành và phiên bản trình duyệt không? Bạn có thể làm điều này với Thông tin lẫn nhau.

Chúng tôi sử dụng entropy rất nhiều cho các thuật toán đề xuất và phân tích của mình: công thức Shannon cổ điển, phân kỳ Kullback-Leibler, Thông tin lẫn nhau. Chúng tôi thậm chí đã gửi một bài báo về chủ đề này. Có một phần riêng biệt, mặc dù nhỏ, dành cho các biện pháp này trong sách giáo khoa nổi tiếng của Murphy về học máy.

Hãy phân tích nó trên dữ liệu tên lửa bán lẻ thực tế. Trước đó, tôi đã sao chép mẫu từ cụm của chúng tôi sang máy tính của mình dưới dạng tệp csv.

Ngày

Ở đây chúng tôi sử dụng ISpark và Spark chạy ở chế độ cục bộ, có nghĩa là tất cả các tính toán được thực hiện cục bộ và được phân phối giữa các lõi bộ xử lý. Tất cả mọi thứ được mô tả trong các bình luận cho mã. Điều quan trọng nhất là ở đầu ra, chúng ta nhận được RDD (cấu trúc dữ liệu Spark), là tập hợp các lớp trường hợp thuộc loại Row, được định nghĩa trong mã. Điều này sẽ cho phép bạn tham chiếu đến các trường thông qua “.”, ví dụ _.categoryId.

= Trước bài

Câu chuyện hàng đầu trong 30 ngày qua

Phổ biến nhất

Được chia sẻ nhiều nhất
Sách mở Compendium về Máy & Học sâu Các nhà khoa học dữ liệu không có kỹ năng kỹ thuật dữ liệu sẽ phải đối mặt với sự thật khắc nghiệt Kiểm tra giả thuyết được giải thích Bảng tóm tắt khoa học dữ liệu 2.0 8 ý tưởng về dự án học sâu cho người mới bắt đầu