بازنشر افلاطون

دنبال: 0

تجزیه و تحلیل داده ها با استفاده از Scala

برچسب ها: علم اطلاعات, فراگیری ماشین, اسکالا, جرقه, نخ

انتخاب ابزار مناسب برای تجزیه و تحلیل داده ها بسیار مهم است. در انجمن های Kaggle، جایی که مسابقات بین المللی علم داده برگزار می شود، مردم اغلب می پرسند که کدام ابزار بهتر است. R و Python در بالای لیست قرار دارند. در این مقاله ما به شما در مورد یک پشته جایگزین از فناوری های تجزیه و تحلیل داده ها بر اساس Scala خواهیم گفت.

نظرات

By رومن زیکوف، بنیانگذار/دانشمند داده @ TopDataLab

انتخاب ابزار مناسب برای تجزیه و تحلیل داده ها بسیار مهم است. در Kaggle.com انجمن‌هایی که مسابقات بین‌المللی علوم داده در آن برگزار می‌شود، مردم اغلب می‌پرسند کدام ابزار بهتر است. R و Python در بالای لیست قرار دارند. در این مقاله به شما در مورد یک پشته جایگزین از فناوری های تجزیه و تحلیل داده ها، بر اساس زبان برنامه نویسی اسکالا و جرقه پلت فرم محاسباتی توزیع شده

چگونه به آن رسیدیم؟ ما در Retail Rocket یادگیری ماشینی زیادی را روی مجموعه داده های بسیار بزرگ انجام می دهیم. ما قبلاً از یک سری IPython + Pyhs2 (درایور کندو برای پایتون) + Pandas + Sklearn برای توسعه نمونه‌های اولیه استفاده می‌کردیم. در پایان تابستان 2014 تصمیمی اساسی گرفتیم که به اسپارک برویم، زیرا آزمایش‌ها نشان داده‌اند که در همان پارک سرورها 3-4 برابر بهبود عملکرد خواهیم داشت.

Another advantage is that we can use one programming language for modeling and code that will run on production servers. This was a huge benefit for us, since before we were using 4 languages simultaneously: Hive, Pig, Java, Python. It’s a problem for a small team of engineers.

Spark از کار با Python/Scala/Java از طریق API ها به خوبی پشتیبانی می کند. ما تصمیم گرفتیم Scala را انتخاب کنیم زیرا این زبانی است که Spark به آن نوشته شده است، به این معنی که می توانیم کد منبع آن را تجزیه و تحلیل کنیم و در صورت نیاز اشکالات را برطرف کنیم. همچنین JVM است که Hadoop بر روی آن اجرا می شود.

باید بگویم که انتخاب آسان نبود، زیرا در آن زمان هیچ کس در تیم اسکالا را نمی شناخت.
این یک واقعیت شناخته شده است که برای یادگیری برقراری ارتباط خوب در یک زبان، باید خود را در زبان غرق کنید و تا حد امکان از آن استفاده کنید. بنابراین ما پشته پایتون را به نفع Scala برای مدل‌سازی و تجزیه و تحلیل سریع داده‌ها رها کردیم.

اولین قدم یافتن جایگزینی برای نوت بوک های IPython بود. گزینه ها به شرح زیر بود:

زپلین – an IPython-like notebook for Spark;
ISpark;
نوت بوک اسپارک;
IBM’s Spark IPython Notebook.
آپاچی تیسنگ معدن

So far the choice has been ISpark because it’s simple – it’s IPython for Scala/Spark. It’s been relatively easy to bolt on HighCharts and R graphics. And we had no problem connecting it to the Yarn cluster.

کار

Let’s try to answer the question: does average purchase amount (AOV) in your online store depend on static customer parameters, which include settlement, browser type (mobile/Desktop), operating system and browser version? You can do this with اطلاعات متقابل.

We use entropy a lot for our recommendation algorithms and analysis: the classical Shannon formula, the Kullback-Leibler divergence, Mutual Information. We even submitted a paper on this topic. There is a separate, albeit small, section devoted to these measures in Murphy’s famous textbook on machine learning.

Let’s analyze it on real Retail Rocket data. Beforehand I copied the sample from our cluster to my computer as a csv file.

داده ها

Here we use ISpark and Spark running in local mode, which means that all calculations are performed locally and are distributed among the processor cores. Everything is described in comments to the code. The most important thing is that in output we get RDD (Spark data structure), which is a collection of case classes of type Row, which is defined in the code. This will allow you to refer to fields via “.”, for example _.categoryId.

= پست قبلی

داستانهای برتر 30 روز گذشته

محبوبترین

بیشترین اشتراکگذاری شده
کتاب باز مجموعه ماشین و یادگیری عمیق دانشمندان داده بدون مهارت مهندسی داده با حقیقت تلخ روبرو خواهند شد آزمون فرضیه توضیح داده شد برگه تقلب علم داده 2.0 8 ایده پروژه یادگیری عمیق برای مبتدیان

منبع: https://www.kdnuggets.com/2021/09/data-analysis-scala.html

تمبر زمان: سپتامبر 24، 2021

تمبر زمان: آوریل 4، 2023

15 قطعه پایتون برای بهینه سازی خط لوله علم داده شما

خوشه منبع:

kdnuggets

گره منبع: 1055895

تمبر زمان: اوت 25، 2021

پست GPT-4: پاسخ به سوالات پرسیده شده در مورد هوش مصنوعی

خوشه منبع:

kdnuggets

گره منبع: 2058600

تمبر زمان: آوریل 13، 2023

آموزش YOLOv5 PyTorch

خوشه منبع:

kdnuggets

گره منبع: 1786404

تمبر زمان: دسامبر 15، 2022

تجزیه و تحلیل داده ها با استفاده از Scala

بازنشر افلاطون

تجزیه و تحلیل داده ها با استفاده از Scala

کار

داده ها

اطلاعات متقابل

نتیجه

منابع

بیشتر از kdnuggets

مجموعه نهایی 50 دوره رایگان برای تسلط بر علم داده – KDnuggets

چگونه از چارچوب داده پاندا خود پرس و جو کنید

از داستان تا واقعیت: ChatGPT و رویای علمی تخیلی مکالمه واقعی هوش مصنوعی - KDnuggets

هوش مصنوعی در زندگی واقعی

استفاده از NotebookLM گوگل برای علم داده: راهنمای جامع – KDnuggets

5 روشی که هوش مصنوعی بر آموزش STEM در سال 2023 تأثیر می گذارد

پست GPT-4: پاسخ به سوالات پرسیده شده در مورد هوش مصنوعی

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب