प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

कंप्यूटर विजन के लिए ओपन सोर्स डेटासेट

टैग: Computer Vision, डेटासेट, मुक्त स्रोत

कंप्यूटर दृष्टि अनुप्रयोगों के लिए जटिल गहरे तंत्रिका नेटवर्क मॉडल के प्रशिक्षण के लिए उच्च-गुणवत्ता, शोर-मुक्त, बड़े पैमाने पर डेटासेट तक पहुंच महत्वपूर्ण है। छवि वर्गीकरण, मुद्रा अनुमान, छवि कैप्शनिंग, स्वायत्त ड्राइविंग और ऑब्जेक्ट सेगमेंटेशन में उपयोग के लिए कई ओपन-सोर्स डेटासेट विकसित किए गए हैं। प्रदर्शन को अनुकूलित करने के लिए इन डेटासेट को उपयुक्त हार्डवेयर और बेंचमार्किंग रणनीतियों के साथ जोड़ा जाना चाहिए।

By केविन वु, एक्सपेक्ट कॉर्प।

टिप्पणियाँ

Computer Vision (सीवी) आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग (एमएल) डोमेन के भीतर सबसे रोमांचक उपक्षेत्रों में से एक है। यह कई आधुनिक एआई/एमएल पाइपलाइनों के लिए एक प्रमुख घटक है, और यह लगभग हर उद्योग को बदल रहा है, जिससे संगठनों को मशीनों और व्यावसायिक प्रणालियों के काम करने के तरीके में क्रांतिकारी बदलाव करने में मदद मिल रही है।

अकादमिक रूप से, सीवी कई दशकों से कंप्यूटर विज्ञान का एक सुस्थापित क्षेत्र रहा है, और वर्षों से, इस क्षेत्र में इसे बेहतर बनाने के लिए बहुत सारे शोध हुए हैं। हालांकि गहरे तंत्रिका नेटवर्क के उपयोग ने हाल ही में इस क्षेत्र में क्रांति ला दी है और इसे त्वरित विकास के लिए नया ईंधन दिया।

कंप्यूटर विज़न के लिए विभिन्न प्रकार के अनुप्रयोग क्षेत्र हैं, जैसे:

स्वायत्त ड्राइविंग
चिकित्सा इमेजिंग विश्लेषण और निदान
दृश्य का पता लगाना और समझना
स्वचालित छवि कैप्शन पीढ़ी
सोशल मीडिया पर फोटो/फेस टैगिंग
गृह सुरक्षा
विनिर्माण उद्योगों और गुणवत्ता नियंत्रण में दोष की पहचान

इस लेख में, हम सीवी कार्यों के लिए अत्याधुनिक एमएल सिस्टम को प्रशिक्षित करने के लिए डीप लर्निंग (डीएल) के क्षेत्र में उपयोग किए जाने वाले कुछ सबसे लोकप्रिय और प्रभावी डेटासेट पर चर्चा करते हैं।

सही ओपन-सोर्स डेटासेट सावधानी से चुनें

छवि और वीडियो फ़ाइलों पर प्रशिक्षण मशीन है a गंभीर डेटा-गहन ऑपरेशन. एक एकल छवि फ़ाइल एक बहु-आयामी, बहु-मेगाबाइट डिजिटल इकाई है जिसमें संपूर्ण 'बुद्धिमान छवि विश्लेषण' कार्य के संदर्भ में 'अंतर्दृष्टि' का केवल एक छोटा अंश होता है।

इसके विपरीत, एक समान आकार की खुदरा बिक्री डेटा तालिका कम्प्यूटेशनल हार्डवेयर पर समान व्यय के साथ एमएल एल्गोरिदम में अधिक अंतर्दृष्टि प्रदान कर सकती है। आधुनिक सीवी पाइपलाइनों के लिए आवश्यक डेटा और कंप्यूटिंग के पैमाने के बारे में बात करते समय यह तथ्य याद रखने योग्य है।

नतीजतन, लगभग सभी मामलों में, सैकड़ों (या हजारों) छवियां सीवी कार्यों के लिए उच्च गुणवत्ता वाले एमएल मॉडल को प्रशिक्षित करने के लिए पर्याप्त नहीं हैं। लगभग सभी आधुनिक सीवी सिस्टम जटिल डीएल मॉडल आर्किटेक्चर का उपयोग करते हैं, और यदि वे पर्याप्त संख्या में सावधानीपूर्वक चयनित प्रशिक्षण उदाहरणों, यानी लेबल की गई छवियों के साथ आपूर्ति नहीं की जाती हैं, तो वे अंडर-फिट रहेंगे। इसलिए, यह एक बहुत ही सामान्य चलन बनता जा रहा है कि मजबूत, सामान्यीकृत, उत्पादन-गुणवत्ता वाले डीएल सिस्टम को प्रशिक्षित करने के लिए अक्सर लाखों ध्यान से चुनी गई छवियों की आवश्यकता होती है.

साथ ही, वीडियो एनालिटिक्स के लिए, कई वीडियो स्ट्रीम से प्राप्त वीडियो फ़ाइलों या फ़्रेम की गतिशील प्रकृति को देखते हुए एक प्रशिक्षण डेटासेट को चुनने और संकलित करने का कार्य अधिक जटिल हो सकता है।

यहां, हम कुछ सबसे लोकप्रिय (स्थिर छवियों और वीडियो क्लिप दोनों से मिलकर) को सूचीबद्ध करते हैं।

कंप्यूटर विज़न मॉडल के लिए लोकप्रिय ओपन-सोर्स डेटासेट

सभी डेटासेट सभी प्रकार के CV कार्यों के लिए समान रूप से उपयुक्त नहीं होते हैं। सामान्य सीवी कार्यों में शामिल हैं:

छवि वर्गीकरण
वस्तु का पता लगाना
वस्तु विभाजन
मल्टी-ऑब्जेक्ट एनोटेशन
चित्र कैप्शनिंग
मानव मुद्रा अनुमान
वीडियो फ्रेम विश्लेषिकी

हम लोकप्रिय, ओपन-सोर्स डेटासेट की सूची दिखाते हैं जो इनमें से अधिकांश श्रेणियों को कवर करते हैं।

इमेजनेट (सबसे प्रसिद्ध)

IMAGEnet दुनिया भर के शोधकर्ताओं को आसानी से सुलभ छवि डेटाबेस प्रदान करने के लिए एक सतत शोध प्रयास है। यह है, शायद, सबसे प्रसिद्ध छवि डेटासेट वहाँ से बाहर है और शोधकर्ताओं और शिक्षार्थियों द्वारा समान रूप से स्वर्ण मानक के रूप में उद्धृत किया गया है।

यह परियोजना छवि और दृष्टि अनुसंधान क्षेत्र में लगातार बढ़ती भावना से प्रेरित थी - अधिक डेटा की आवश्यकता। यह वर्डनेट पदानुक्रम के अनुसार आयोजित किया जाता है। वर्डनेट में प्रत्येक सार्थक अवधारणा, जिसे संभवतः कई शब्दों या शब्द वाक्यांशों द्वारा वर्णित किया जाता है, को "समानार्थक सेट" या "सिंसेट" कहा जाता है। वर्डनेट में 100,000 से अधिक सिनसेट हैं। इसी तरह, इमेजनेट का लक्ष्य प्रत्येक सिनसेट को चित्रित करने के लिए औसतन 1000 छवियां प्रदान करना है।

इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (ILSVRC) एक वैश्विक वार्षिक प्रतियोगिता है जो बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन और इमेज वर्गीकरण के लिए एल्गोरिदम (विश्वविद्यालय या कॉर्पोरेट अनुसंधान समूहों की टीमों द्वारा प्रस्तुत) का मूल्यांकन करती है। एक उच्च-स्तरीय प्रेरणा शोधकर्ताओं को वस्तुओं की एक विस्तृत विविधता का पता लगाने में प्रगति की तुलना करने की अनुमति देना है - काफी महंगे लेबलिंग प्रयास का लाभ उठाते हुए। एक अन्य प्रेरणा पुनर्प्राप्ति और एनोटेशन के लिए बड़े पैमाने पर छवि अनुक्रमण के लिए कंप्यूटर दृष्टि की प्रगति को मापना है। यह मशीन लर्निंग के पूरे क्षेत्र में सबसे चर्चित वार्षिक प्रतियोगिताओं में से एक है।

सीआईएफएआर-10 (शुरुआती के लिए)

यह एक है छवियों का संग्रह जो आमतौर पर क्षेत्र में शुरुआती लोगों द्वारा मशीन लर्निंग और कंप्यूटर विज़न एल्गोरिदम को प्रशिक्षित करने के लिए उपयोग किया जाता है। यह मशीन लर्निंग रिसर्च के लिए सबसे लोकप्रिय डेटासेट में से एक है एल्गोरिदम की त्वरित तुलना क्योंकि यह प्रशिक्षण और हाइपरपैरामीटर ट्यूनिंग प्रक्रिया पर अनुचित कम्प्यूटेशनल बोझ डाले बिना किसी विशेष वास्तुकला की कमजोरी और ताकत को पकड़ लेता है।

इसमें १० अलग-अलग वर्गों में ६०,०००, ३२×३२ रंगीन चित्र हैं। कक्षाएं हवाई जहाज, कारों, पक्षियों, बिल्लियों, हिरणों, कुत्तों, मेंढकों, घोड़ों, जहाजों और ट्रकों का प्रतिनिधित्व करती हैं।

मेगाफेस और एलएफडब्ल्यू (चेहरा पहचान)

जंगली में लेबल किए गए चेहरे (LFW) चेहरे की तस्वीरों का एक डेटाबेस है जिसे के लिए डिज़ाइन किया गया है अप्रतिबंधित चेहरा पहचान की समस्या का अध्ययन. इसमें 13,233 लोगों की 5,749 छवियां शामिल हैं, जिन्हें वेब से स्क्रैप और पता लगाया गया है। एक अतिरिक्त चुनौती के रूप में, एमएल शोधकर्ता 1,680 लोगों के लिए चित्रों का उपयोग कर सकते हैं, जिनके पास डेटासेट में दो या अधिक विशिष्ट फ़ोटो हैं। नतीजतन, यह चेहरा सत्यापन के लिए एक सार्वजनिक बेंचमार्क है, जिसे जोड़ी मिलान के रूप में भी जाना जाता है (एक ही व्यक्ति की कम से कम दो छवियों की आवश्यकता होती है)।

मेगाफैस एक बड़े पैमाने पर खुला स्रोत चेहरा पहचान प्रशिक्षण डेटासेट है जो कि सबसे महत्वपूर्ण बेंचमार्क में से एक के रूप में कार्य करता है व्यावसायिक चेहरा पहचानने की समस्या. इसमें 4,753,320 पहचान वाले 672,057 चेहरे शामिल हैं और यह बड़े डीएल वास्तुकला प्रशिक्षण के लिए अत्यधिक उपयुक्त है। सभी चित्र फ़्लिकर (याहू के डेटासेट) से प्राप्त किए गए हैं और क्रिएटिव कॉमन्स के तहत लाइसेंस प्राप्त हैं।

आईएमडीबी-विकी (लिंग और आयु पहचान)

आईएमडीबी-विकी उनमें से एक है सबसे बड़ा और खुला स्रोत वाला डेटासेट प्रशिक्षण के लिए लिंग और आयु लेबल के साथ चेहरे के चित्र। कुल मिलाकर, इस डेटासेट में 523,051 चेहरे की छवियां हैं, जहां आईएमडीबी से 460,723 हस्तियों और विकिपीडिया से 20,284 हस्तियों से 62,328 चेहरे की छवियां प्राप्त की जाती हैं।

एमएस कोको (ऑब्जेक्ट डिटेक्शन एंड सेगमेंटेशन)

कोको या संदर्भ में सामान्य वस्तुएं बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। डेटासेट में 91 ऑब्जेक्ट प्रकारों की तस्वीरें होती हैं जिन्हें आसानी से पहचाना जा सकता है और 2.5k छवियों में कुल 328 मिलियन लेबल किए गए उदाहरण हैं। इसके अलावा, यह मल्टी-ऑब्जेक्ट लेबलिंग, सेगमेंटेशन मास्क एनोटेशन, इमेज कैप्शनिंग और की-पॉइंट डिटेक्शन जैसे अधिक जटिल सीवी कार्यों के लिए संसाधन प्रदान करता है।. यह एक सहज ज्ञान युक्त एपीआई द्वारा अच्छी तरह से समर्थित है जो COCO में एनोटेशन को लोड करने, पार्स करने और विज़ुअलाइज़ करने में सहायता करता है। एपीआई कई एनोटेशन प्रारूपों का समर्थन करता है।

MPII मानव मुद्रा (मुद्रा अनुमान)

यह डेटासेट व्यक्त मानव मुद्रा अनुमान के मूल्यांकन के लिए प्रयोग किया जाता है। इसमें लगभग 25K छवियां शामिल हैं जिनमें 40K से अधिक लोग हैं एनोटेट शरीर के जोड़. यहां, प्रत्येक छवि को एक YouTube वीडियो से निकाला जाता है और पूर्ववर्ती और गैर-एनोटेटेड फ़्रेमों के साथ प्रदान किया जाता है। कुल मिलाकर डेटासेट 410 मानवीय गतिविधियों को कवर करता है, और प्रत्येक छवि को एक गतिविधि लेबल के साथ प्रदान किया जाता है।

फ़्लिकर -30k (छवि कैप्शनिंग)

यह एक इमेज कैप्शन कॉर्पस है जिसमें 158,915 भीड़-सोर्स वाले कैप्शन हैं जो 31,783 छवियों का वर्णन करते हैं। यह पिछले का विस्तार है फ्लिकर 8k डेटासेट. नई छवियां और कैप्शन रोजमर्रा की गतिविधियों और घटनाओं में शामिल लोगों पर केंद्रित हैं।

20BN-समथिंग-समथिंग (मानव क्रिया के वीडियो क्लिप)

यह डेटासेट एक है घनी लेबल वाली वीडियो क्लिप का बड़ा संग्रह कि कैसे रोजमर्रा की वस्तुओं के साथ पूर्व-निर्धारित बुनियादी क्रियाएं करने वाले मनुष्य. यह बड़ी संख्या में भीड़ कार्यकर्ताओं द्वारा बनाया गया था, जो एमएल मॉडल को भौतिक दुनिया में होने वाली बुनियादी क्रियाओं की एक अच्छी समझ विकसित करने की अनुमति देता है।

यहां सामान्य मानवीय गतिविधियों का एक सबसेट है जो इस डेटासेट में कैप्चर किया गया है:

बार्कले डीपड्राइव (स्वायत्त वाहन प्रशिक्षण के लिए)

RSI बर्कले डीपड्राइव डेटासेट यूसी बर्कले द्वारा विभिन्न प्रकार के एनोटेशन के साथ 100K से अधिक वीडियो अनुक्रम शामिल हैं, जिसमें ऑब्जेक्ट बाउंडिंग बॉक्स, देखने योग्य क्षेत्र, छवि-स्तरीय टैगिंग, लेन मार्किंग और पूर्ण-फ्रेम इंस्टेंस सेगमेंटेशन शामिल हैं। इसके अलावा, डेटासेट सुविधाएँ विभिन्न भौगोलिक, पर्यावरण और मौसम स्थितियों का प्रतिनिधित्व करने में व्यापक विविधता.

यह स्वायत्त वाहनों के लिए मजबूत मॉडलों को प्रशिक्षित करने के लिए अत्यधिक उपयोगी है ताकि वे हमेशा बदलती सड़क और ड्राइविंग स्थितियों से आश्चर्यचकित होने की संभावना कम हो।

इन डेटासेट के लिए सही हार्डवेयर और बेंचमार्किंग

कहने की जरूरत नहीं है कि उच्च गुणवत्ता वाले एमएल सिस्टम या व्यावसायिक समाधान के निर्माण के लिए केवल ये डेटासेट होना पर्याप्त नहीं है। किसी भी शैक्षणिक या व्यावसायिक समस्या के लिए इष्टतम समाधान प्राप्त करने के लिए डेटासेट, प्रशिक्षण हार्डवेयर और चतुर ट्यूनिंग और बेंचमार्किंग रणनीति के सही विकल्प का मिश्रण आवश्यक है।

इसीलिए उच्च प्रदर्शन GPU वांछित प्रदर्शन देने के लिए लगभग हमेशा इन डेटासेट के साथ जोड़ा जाता है।

GPU को विकसित किया गया था (मुख्य रूप से वीडियो गेमिंग उद्योग के लिए खानपान) a . को संभालने के लिए समानांतर संगणना की भारी डिग्री हजारों छोटे कंप्यूटिंग कोर का उपयोग करना। वे भी विशेषता बड़ी मेमोरी बैंडविड्थ जब तंत्रिका नेटवर्क सैकड़ों युगों से प्रशिक्षण ले रहा हो, तो इन संगणनाओं के लिए आवश्यक तीव्र डेटाफ्लो (प्रसंस्करण इकाई से धीमी मुख्य मेमोरी और बैक तक) से निपटने के लिए। यह उन्हें बनाता है आदर्श कमोडिटी हार्डवेयर कंप्यूटर विज़न कार्यों के गणना भार से निपटने के लिए।

हालाँकि, बाजार में GPU के लिए कई विकल्प हैं, और यह निश्चित रूप से औसत उपयोगकर्ता को अभिभूत कर सकता है। इस संबंध में संभावित खरीदार का मार्गदर्शन करने के लिए कुछ अच्छी बेंचमार्किंग रणनीतियां हैं जो वर्षों से प्रकाशित हुई हैं। एक अच्छे बेंचमार्किंग अभ्यास को (ए) डीप न्यूरल नेटवर्क (डीएनएन) आर्किटेक्चर, (बी) जीपीयू, और (सी) व्यापक रूप से उपयोग किए जाने वाले डेटासेट (जैसे हमने पिछले अनुभाग में चर्चा की) की कई किस्मों पर विचार करना चाहिए।

उदाहरण के लिए, यह उत्कृष्ट लेख निम्नलिखित पर विचार करता है:

वास्तुकला: ResNet-152, ResNet-101, ResNet-50, और ResNet-18
जीपीयू: EVGA (नॉन-ब्लोअर) RTX 2080 ti, गीगाबाइट (धौंकनी) आरटीएक्स 2080 टी, तथा एनवीडिया टाइटन आरटीएक्स
डेटासेट: IMAGEnet, सीआईएफएआर-100, तथा सीआईएफएआर-10.

साथ ही, एक अच्छे बेंचमार्क के लिए प्रदर्शन के कई आयामों पर विचार किया जाना चाहिए।

विचार करने के लिए प्रदर्शन आयाम

तीन प्राथमिक सूचकांक हैं:

सेकंड-बैच-टाइम: दूसरा प्रशिक्षण बैच समाप्त करने का समय। GPU के गर्म होने के लिए पर्याप्त समय तक चलने से पहले यह संख्या प्रदर्शन को मापती है। प्रभावी रूप से, नहीं थर्मल थ्रॉटलिंग.
औसत-बैच-समय: ImageNet में 1 युग के बाद या CIFAR में 15 युगों के बाद औसत बैच समय। यह उपाय ध्यान में रखता है थर्मल थ्रॉटलिंग.
एक साथ-औसत-बैच-समय: इमेजनेट में 1 युग के बाद औसत बैच समय या CIFAR में 15 युगों के साथ सभी GPU एक साथ चल रहे हैं। यह सभी GPU द्वारा दी गई संयुक्त गर्मी के कारण सिस्टम में थर्मल थ्रॉटलिंग के प्रभाव को मापता है।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित: