Analiza datelor folosind Scala

Etichete: Știința datelor, Invatare mecanica, Scala, Scânteie, FIRE

Este foarte important să alegeți instrumentul potrivit pentru analiza datelor. Pe forumurile Kaggle, unde au loc competiții internaționale de știință a datelor, oamenii se întreabă adesea care instrument este mai bun. R și Python sunt în fruntea listei. În acest articol vă vom spune despre o stivă alternativă de tehnologii de analiză a datelor, bazate pe Scala.

comentarii

By Roman Zykov, Fondator/Data Scientist @ TopDataLab

Este foarte important să alegeți instrumentul potrivit pentru analiza datelor. Pe Kaggle.com forumuri, unde se organizează competiții internaționale de știință a datelor, oamenii se întreabă adesea care instrument este mai bun. R și Python sunt în fruntea listei. În acest articol vă vom spune despre o stivă alternativă de tehnologii de analiză a datelor, bazate pe limbajul de programare Scala și Scânteie platformă de calcul distribuită.

Cum am venit cu asta? La Retail Rocket facem multă învățare automată pe seturi de date foarte mari. Obișnuiam să folosim o mulțime de IPython + Pyhs2 (driver de stup pentru Python) + Pandas + Sklearn pentru a dezvolta prototipuri. La sfârșitul verii 2014 am luat o decizie fundamentală de a trece la Spark, deoarece experimentele au arătat că vom obține o îmbunătățire a performanței de 3-4 ori mai mare pe același parc de servere.

Un alt avantaj este că putem folosi un limbaj de programare pentru modelare și cod care va rula pe serverele de producție. Acesta a fost un beneficiu imens pentru noi, deoarece înainte folosim 4 limbi simultan: Hive, Pig, Java, Python. Este o problemă pentru o echipă mică de ingineri.

Spark acceptă bine lucrul cu Python/Scala/Java prin intermediul API-urilor. Am decis să alegem Scala pentru că este limbajul în care este scris Spark, ceea ce înseamnă că îi putem analiza codul sursă și putem remedia erorile dacă este necesar. Este, de asemenea, JVM-ul pe care rulează Hadoop.

Trebuie să spun că alegerea nu a fost ușoară, din moment ce nimeni din echipă nu-l cunoștea pe Scala la acea vreme.
Este un fapt binecunoscut că, pentru a învăța să comunici bine într-o limbă, trebuie să te scufunzi în limbă și să o folosești cât mai mult posibil. Așa că am abandonat stiva Python în favoarea Scala pentru modelare și analiza rapidă a datelor.

Primul pas a fost să găsești un înlocuitor pentru notebook-urile IPython. Opțiunile au fost următoarele:

Zeppelin – un notebook asemănător IPython pentru Spark;
ISpark;
Spark Notebook;
Notebook-ul IBM Spark IPython.
Apache Toree

Până acum alegerea a fost ISpark pentru că este simplu – este IPython pentru Scala/Spark. A fost relativ ușor să prindeți grafica HighCharts și R. Și nu am avut nicio problemă să-l conectăm la clusterul Yarn.

Sarcină

Să încercăm să răspundem la întrebarea: valoarea medie de achiziție (AOV) din magazinul dvs. online depinde de parametrii statici ai clientului, care includ decontarea, tipul de browser (mobil/Desktop), sistemul de operare și versiunea browserului? Puteți face asta cu Informații reciproce.

Folosim mult entropia pentru algoritmii și analizele noastre de recomandare: formula clasică Shannon, divergența Kullback-Leibler, Informația reciprocă. Am trimis chiar și o lucrare pe această temă. Există o secțiune separată, deși mică, dedicată acestor măsuri în celebrul manual al lui Murphy despre învățarea automată.

Să-l analizăm pe date reale de retail Rocket. În prealabil am copiat eșantionul din clusterul nostru pe computerul meu ca fișier csv.

Date

Aici folosim ISpark și Spark care rulează în mod local, ceea ce înseamnă că toate calculele sunt efectuate local și sunt distribuite între nucleele procesorului. Totul este descris în comentarii la cod. Cel mai important lucru este că în ieșire obținem RDD (Spark data structure), care este o colecție de clase de caz de tip Row, care este definită în cod. Acest lucru vă va permite să vă referiți la câmpuri prin „.”, de exemplu _.categoryId.

= Precedentele mesaj

Povestiri de top trecute 30 de zile

Cel mai popular

Cele mai împărtășite
Cartea deschisă a Machine & Deep Learning Compendium Oamenii de știință a datelor fără abilități de inginerie a datelor se vor confrunta cu adevărul dur Testarea ipotezei explicată Foaia de trucuri Data Science 2.0 8 idei de proiect de învățare profundă pentru începători