प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

PyPolars के साथ पंडों को 3 गुना तेज बनाएं

= पिछला पोस्ट

टैग: पांडा, प्रदर्शन, अजगर

जानें कि PyPolars लाइब्रेरी का उपयोग करके अपने पांडा वर्कफ़्लो को कैसे तेज़ करें।

टिप्पणियाँ

By सत्यम कुमार, मशीन लर्निंग उत्साही और प्रोग्रामर

द्वारा फोटो टिम गौव on Unsplash

डेटा वैज्ञानिकों के बीच डेटा के साथ खेलने के लिए पांडास सबसे महत्वपूर्ण पायथन पैकेजों में से एक है। पांडास लाइब्रेरी का उपयोग ज्यादातर डेटा अन्वेषण और विज़ुअलाइज़ेशन के लिए किया जाता है क्योंकि यह कई अंतर्निहित कार्यों के साथ आता है। पांडा बड़े आकार के डेटासेट को संभालने में विफल रहते हैं क्योंकि यह सीपीयू के सभी कोर में अपनी प्रक्रिया को स्केल या वितरित नहीं करता है।

गणनाओं को तेज़ करने के लिए, कोई व्यक्ति सीपीयू के सभी कोर का उपयोग कर सकता है और वर्कफ़्लो को तेज़ कर सकता है। Dashk, Vaex, MODin, Pandaralel, PyPolars आदि सहित विभिन्न ओपन-सोर्स लाइब्रेरी हैं जो CPU के कई कोर में गणनाओं को समानांतर करती हैं। इस लेख में, हम PyPolars लाइब्रेरी के कार्यान्वयन और उपयोग पर चर्चा करेंगे और पांडा लाइब्रेरी के साथ इसके प्रदर्शन की तुलना करेंगे।

पायपोलर्स क्या है?

PyPolars पांडा के समान एक ओपन-सोर्स पायथन डेटा फ़्रेम लाइब्रेरी है। PyPolars सीपीयू के सभी उपलब्ध कोर का उपयोग करता है और इसलिए पांडा की तुलना में तेजी से गणना करता है। PyPolars में पांडा के समान एक एपीआई है। यह पायथन रैपर्स के साथ जंग में लिखा गया है।

आदर्श रूप से, PyPolars का उपयोग तब किया जाता है जब डेटा पांडा के लिए बहुत बड़ा होता है और स्पार्क के लिए बहुत छोटा होता है

पाइपोलर कैसे काम करता है?

PyPolars लाइब्रेरी में दो API हैं, एक Eager API और दूसरा Lazy API है। उत्सुक एपीआई पांडा के समान है, और परिणाम पांडा के समान ही निष्पादन पूरा होने के बाद उत्पन्न होते हैं। लेज़ी एपीआई स्पार्क के समान है, जहां एक क्वेरी के निष्पादन पर एक नक्शा या योजना बनाई जाती है। फिर निष्पादन को सीपीयू के सभी कोर में समानांतर रूप से निष्पादित किया जाता है।

(छवि लेखक द्वारा), पायपोलर्स एपीआई

PyPolars मूल रूप से Polars लाइब्रेरी के लिए पायथन बाइंडिंग के रूप में है। PyPolars लाइब्रेरी का सबसे अच्छा हिस्सा इसकी API Pandas से समानता है, जो डेवलपर्स के लिए इसे आसान बनाता है।

स्थापना:

निम्नलिखित कमांड का उपयोग करके PyPolars को PyPl से इंस्टॉल किया जा सकता है:

pip install py-polars

और लाइब्रेरी का उपयोग करके आयात करें

import pypolars as pl

बेंचमार्क समय बाधाएँ:

प्रदर्शनों के लिए, मैंने 6.4 मिलियन इंस्टेंस वाले बड़े आकार के डेटासेट (~25जीबी) का उपयोग किया है।

(लेखक द्वारा छवि), पांडा और पाय-पोलर बुनियादी संचालन के लिए बेंचमार्क समय संख्या

पांडा और पायपोलर लाइब्रेरी का उपयोग करके कुछ बुनियादी संचालन के लिए उपरोक्त बेंचमार्क समय संख्याओं के लिए, हम देख सकते हैं कि पांडा की तुलना में पायपोलर लगभग 2x से 3x तेज़ है।

अब हम जानते हैं कि PyPolars में पांडा के समान ही एक एपीआई है, लेकिन फिर भी, यह पांडा के सभी कार्यों को कवर नहीं करता है। उदाहरण के लिए, हमारे पास नहीं है .describe() PyPolars में फ़ंक्शन, इसके बजाय, हम उपयोग कर सकते हैं df_pypolars.to_pandas().describe()

उपयोग:

(लेखक द्वारा कोड)

निष्कर्ष:

इस लेख में, हमने PyPolars लाइब्रेरी का एक छोटा सा परिचय शामिल किया है, जिसमें इसके कार्यान्वयन, उपयोग और कुछ बुनियादी संचालन के लिए पांडा के साथ इसके बेंचमार्क समय संख्याओं की तुलना करना शामिल है। ध्यान दें कि PyPolars पांडा के समान ही काम करता है, और PyPolars एक मेमोरी-कुशल लाइब्रेरी है क्योंकि इसके द्वारा समर्थित मेमोरी अपरिवर्तनीय है।

के माध्यम से जा सकता है दस्तावेज़ीकरण पुस्तकालय की विस्तृत समझ प्राप्त करने के लिए। कई अन्य ओपन-सोर्स लाइब्रेरी हैं जो पांडा के संचालन को समानांतर कर सकती हैं और प्रक्रिया को गति दे सकती हैं। को पढ़िए नीचे उल्लिखित लेख जानिए ऐसी ही 4 लाइब्रेरीज़ के बारे में:

4 पुस्तकालय जो मौजूदा पांडा पारिस्थितिकी तंत्र को समानांतर कर सकते हैं
इन रूपरेखाओं का उपयोग करके समानांतर प्रसंस्करण द्वारा पायथन कार्यभार वितरित करें

सन्दर्भ:

[1] पोलर्स डॉक्यूमेंटेशन और गिटहब रिपॉजिटरी: https://github.com/ritchie46/polars

पढ़ने के लिए आपका शुक्रिया

जैव: सत्यम कुमार एक मशीन लर्निंग उत्साही और प्रोग्रामर है। सत्यम लिखते हैं डेटा साइंस के बारे में, और एआई में एक शीर्ष लेखक हैं। वह एक ऐसे संगठन में एक चुनौतीपूर्ण करियर की तलाश में है जो उसके तकनीकी कौशल और क्षमताओं को भुनाने का अवसर प्रदान करे।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:

= पिछला पोस्ट

शीर्ष आलेख पिछले 30 दिन

सबसे लोकप्रिय

सर्वाधिक साझा

स्रोत: https://www.kdnuggets.com/2021/05/pandas-faster-pypolars.html

समय टिकट: 31 मई 2021

समय टिकट: अगस्त 8, 2023

Google Colab पर रेडिस चलाना

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 1582444

समय टिकट: जनवरी 14, 2022

5 कोडिंग कार्य चैटजीपीटी नहीं कर सकता - केडीनगेट्स

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 2434814

समय टिकट: जनवरी 9, 2024

मशीन लर्निंग में मौलिक और आधुनिक एल्गोरिदम दोनों का उपयोग करके कंप्यूटर विज्ञान की समस्याओं से निपटें - केडीनगेट्स

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 2392899

समय टिकट: नवम्बर 21, 2023

PyPolars के साथ पंडों को 3 गुना तेज बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

PyPolars के साथ पंडों को 3 गुना तेज बनाएं

पायपोलर्स क्या है?

पाइपोलर कैसे काम करता है?

स्थापना:

बेंचमार्क समय बाधाएँ:

उपयोग:

निष्कर्ष:

शीर्ष आलेख पिछले 30 दिन

से अधिक केडनगेट्स

डेटा साइंस के लिए 5 वास्तव में उपयोगी बैश स्क्रिप्ट

एक संगठन में MLOps इंजीनियर की भूमिका

प्रिडिक्टिव जेनएआई के साथ सशक्त होना - केडीनगेट्स

शीर्ष पोस्ट 31 जुलाई - 6 अगस्त: चैटजीपीटी को भूल जाइए, यह नया एआई असिस्टेंट बहुत आगे है - केडीनगेट्स

विचारों का ग्राफ: बड़े भाषा मॉडल में विस्तृत समस्या-समाधान के लिए एक नया प्रतिमान - केडीनगेट्स

Google Colab पर रेडिस चलाना

5 कोडिंग कार्य चैटजीपीटी नहीं कर सकता - केडीनगेट्स

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा