PyPolars के साथ पंडों को 3 गुना तेज बनाएं

स्रोत नोड: 1854103

PyPolars के साथ पंडों को 3 गुना तेज बनाएं

जानें कि PyPolars लाइब्रेरी का उपयोग करके अपने पांडा वर्कफ़्लो को कैसे तेज़ करें।


By सत्यम कुमार, मशीन लर्निंग उत्साही और प्रोग्रामर



द्वारा फोटो टिम गौव on Unsplash

 

डेटा वैज्ञानिकों के बीच डेटा के साथ खेलने के लिए पांडास सबसे महत्वपूर्ण पायथन पैकेजों में से एक है। पांडास लाइब्रेरी का उपयोग ज्यादातर डेटा अन्वेषण और विज़ुअलाइज़ेशन के लिए किया जाता है क्योंकि यह कई अंतर्निहित कार्यों के साथ आता है। पांडा बड़े आकार के डेटासेट को संभालने में विफल रहते हैं क्योंकि यह सीपीयू के सभी कोर में अपनी प्रक्रिया को स्केल या वितरित नहीं करता है।

गणनाओं को तेज़ करने के लिए, कोई व्यक्ति सीपीयू के सभी कोर का उपयोग कर सकता है और वर्कफ़्लो को तेज़ कर सकता है। Dashk, Vaex, MODin, Pandaralel, PyPolars आदि सहित विभिन्न ओपन-सोर्स लाइब्रेरी हैं जो CPU के कई कोर में गणनाओं को समानांतर करती हैं। इस लेख में, हम PyPolars लाइब्रेरी के कार्यान्वयन और उपयोग पर चर्चा करेंगे और पांडा लाइब्रेरी के साथ इसके प्रदर्शन की तुलना करेंगे।

पायपोलर्स क्या है?

 
PyPolars पांडा के समान एक ओपन-सोर्स पायथन डेटा फ़्रेम लाइब्रेरी है। PyPolars सीपीयू के सभी उपलब्ध कोर का उपयोग करता है और इसलिए पांडा की तुलना में तेजी से गणना करता है। PyPolars में पांडा के समान एक एपीआई है। यह पायथन रैपर्स के साथ जंग में लिखा गया है।


आदर्श रूप से, PyPolars का उपयोग तब किया जाता है जब डेटा पांडा के लिए बहुत बड़ा होता है और स्पार्क के लिए बहुत छोटा होता है


पाइपोलर कैसे काम करता है?

 
PyPolars लाइब्रेरी में दो API हैं, एक Eager API और दूसरा Lazy API है। उत्सुक एपीआई पांडा के समान है, और परिणाम पांडा के समान ही निष्पादन पूरा होने के बाद उत्पन्न होते हैं। लेज़ी एपीआई स्पार्क के समान है, जहां एक क्वेरी के निष्पादन पर एक नक्शा या योजना बनाई जाती है। फिर निष्पादन को सीपीयू के सभी कोर में समानांतर रूप से निष्पादित किया जाता है।



(छवि लेखक द्वारा), पायपोलर्स एपीआई

 

PyPolars मूल रूप से Polars लाइब्रेरी के लिए पायथन बाइंडिंग के रूप में है। PyPolars लाइब्रेरी का सबसे अच्छा हिस्सा इसकी API Pandas से समानता है, जो डेवलपर्स के लिए इसे आसान बनाता है।

स्थापना:

 
निम्नलिखित कमांड का उपयोग करके PyPolars को PyPl से इंस्टॉल किया जा सकता है:

pip install py-polars


और लाइब्रेरी का उपयोग करके आयात करें

import pypolars as pl


बेंचमार्क समय बाधाएँ:


प्रदर्शनों के लिए, मैंने 6.4 मिलियन इंस्टेंस वाले बड़े आकार के डेटासेट (~25जीबी) का उपयोग किया है।




(लेखक द्वारा छवि), पांडा और पाय-पोलर बुनियादी संचालन के लिए बेंचमार्क समय संख्या

 

पांडा और पायपोलर लाइब्रेरी का उपयोग करके कुछ बुनियादी संचालन के लिए उपरोक्त बेंचमार्क समय संख्याओं के लिए, हम देख सकते हैं कि पांडा की तुलना में पायपोलर लगभग 2x से 3x तेज़ है।

अब हम जानते हैं कि PyPolars में पांडा के समान ही एक एपीआई है, लेकिन फिर भी, यह पांडा के सभी कार्यों को कवर नहीं करता है। उदाहरण के लिए, हमारे पास नहीं है .describe() PyPolars में फ़ंक्शन, इसके बजाय, हम उपयोग कर सकते हैं df_pypolars.to_pandas().describe()

उपयोग:

 

(लेखक द्वारा कोड)

निष्कर्ष:

 
इस लेख में, हमने PyPolars लाइब्रेरी का एक छोटा सा परिचय शामिल किया है, जिसमें इसके कार्यान्वयन, उपयोग और कुछ बुनियादी संचालन के लिए पांडा के साथ इसके बेंचमार्क समय संख्याओं की तुलना करना शामिल है। ध्यान दें कि PyPolars पांडा के समान ही काम करता है, और PyPolars एक मेमोरी-कुशल लाइब्रेरी है क्योंकि इसके द्वारा समर्थित मेमोरी अपरिवर्तनीय है।

के माध्यम से जा सकता है दस्तावेज़ीकरण पुस्तकालय की विस्तृत समझ प्राप्त करने के लिए। कई अन्य ओपन-सोर्स लाइब्रेरी हैं जो पांडा के संचालन को समानांतर कर सकती हैं और प्रक्रिया को गति दे सकती हैं। को पढ़िए नीचे उल्लिखित लेख जानिए ऐसी ही 4 लाइब्रेरीज़ के बारे में:

4 पुस्तकालय जो मौजूदा पांडा पारिस्थितिकी तंत्र को समानांतर कर सकते हैं
इन रूपरेखाओं का उपयोग करके समानांतर प्रसंस्करण द्वारा पायथन कार्यभार वितरित करें

 
सन्दर्भ:

[1] पोलर्स डॉक्यूमेंटेशन और गिटहब रिपॉजिटरी: https://github.com/ritchie46/polars

 
पढ़ने के लिए आपका शुक्रिया

 
जैव: सत्यम कुमार एक मशीन लर्निंग उत्साही और प्रोग्रामर है। सत्यम लिखते हैं डेटा साइंस के बारे में, और एआई में एक शीर्ष लेखक हैं। वह एक ऐसे संगठन में एक चुनौतीपूर्ण करियर की तलाश में है जो उसके तकनीकी कौशल और क्षमताओं को भुनाने का अवसर प्रदान करे।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:



शीर्ष आलेख पिछले 30 दिन

सबसे लोकप्रिय
  1. डेटा वैज्ञानिक, डेटा इंजीनियर और अन्य डेटा करियर, समझाया गया
  2. वैक्स: पांडा लेकिन 1000 गुना तेज
  3. डेटा साइंस की किताबें जिन्हें आपको 2021 में पढ़ना शुरू कर देना चाहिए
  4. चीट शीट के साथ SQL में डेटा तैयार करना!
  5. चार्टिक्युलेटर: माइक्रोसॉफ्ट रिसर्च ने गेम-चेंजिंग डेटा विज़ुअलाइज़ेशन प्लेटफ़ॉर्म को ओपन-सोर्स किया
सर्वाधिक साझा
  1. डेटा साइंटिस्ट बनने के लिए एक गाइड (कदम दर कदम दृष्टिकोण)
  2. डेटा वैज्ञानिक, डेटा इंजीनियर और अन्य डेटा करियर, समझाया गया
  3. कैसे निर्धारित करें कि आपका मशीन लर्निंग मॉडल ओवरट्रेन है
  4. डीपमाइंड मशीन लर्निंग में सबसे महत्वपूर्ण एल्गोरिदम में से एक की फिर से कल्पना करना चाहता है
  5. डेटा साइंस और मशीन लर्निंग के लिए आवश्यक रैखिक बीजगणित

स्रोत: https://www.kdnuggets.com/2021/05/pandas-faster-pypolars.html

समय टिकट:

से अधिक केडनगेट्स