कंप्यूटर विजन के लिए ओपन सोर्स डेटासेट
कंप्यूटर दृष्टि अनुप्रयोगों के लिए जटिल गहरे तंत्रिका नेटवर्क मॉडल के प्रशिक्षण के लिए उच्च-गुणवत्ता, शोर-मुक्त, बड़े पैमाने पर डेटासेट तक पहुंच महत्वपूर्ण है। छवि वर्गीकरण, मुद्रा अनुमान, छवि कैप्शनिंग, स्वायत्त ड्राइविंग और ऑब्जेक्ट सेगमेंटेशन में उपयोग के लिए कई ओपन-सोर्स डेटासेट विकसित किए गए हैं। प्रदर्शन को अनुकूलित करने के लिए इन डेटासेट को उपयुक्त हार्डवेयर और बेंचमार्किंग रणनीतियों के साथ जोड़ा जाना चाहिए।
Computer Vision (सीवी) आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग (एमएल) डोमेन के भीतर सबसे रोमांचक उपक्षेत्रों में से एक है। यह कई आधुनिक एआई/एमएल पाइपलाइनों के लिए एक प्रमुख घटक है, और यह लगभग हर उद्योग को बदल रहा है, जिससे संगठनों को मशीनों और व्यावसायिक प्रणालियों के काम करने के तरीके में क्रांतिकारी बदलाव करने में मदद मिल रही है।
अकादमिक रूप से, सीवी कई दशकों से कंप्यूटर विज्ञान का एक सुस्थापित क्षेत्र रहा है, और वर्षों से, इस क्षेत्र में इसे बेहतर बनाने के लिए बहुत सारे शोध हुए हैं। हालांकि गहरे तंत्रिका नेटवर्क के उपयोग ने हाल ही में इस क्षेत्र में क्रांति ला दी है और इसे त्वरित विकास के लिए नया ईंधन दिया।
कंप्यूटर विज़न के लिए विभिन्न प्रकार के अनुप्रयोग क्षेत्र हैं, जैसे:
- स्वायत्त ड्राइविंग
- चिकित्सा इमेजिंग विश्लेषण और निदान
- दृश्य का पता लगाना और समझना
- स्वचालित छवि कैप्शन पीढ़ी
- सोशल मीडिया पर फोटो/फेस टैगिंग
- गृह सुरक्षा
- विनिर्माण उद्योगों और गुणवत्ता नियंत्रण में दोष की पहचान
इस लेख में, हम सीवी कार्यों के लिए अत्याधुनिक एमएल सिस्टम को प्रशिक्षित करने के लिए डीप लर्निंग (डीएल) के क्षेत्र में उपयोग किए जाने वाले कुछ सबसे लोकप्रिय और प्रभावी डेटासेट पर चर्चा करते हैं।
सही ओपन-सोर्स डेटासेट सावधानी से चुनें
छवि और वीडियो फ़ाइलों पर प्रशिक्षण मशीन है a गंभीर डेटा-गहन ऑपरेशन. एक एकल छवि फ़ाइल एक बहु-आयामी, बहु-मेगाबाइट डिजिटल इकाई है जिसमें संपूर्ण 'बुद्धिमान छवि विश्लेषण' कार्य के संदर्भ में 'अंतर्दृष्टि' का केवल एक छोटा अंश होता है।
इसके विपरीत, एक समान आकार की खुदरा बिक्री डेटा तालिका कम्प्यूटेशनल हार्डवेयर पर समान व्यय के साथ एमएल एल्गोरिदम में अधिक अंतर्दृष्टि प्रदान कर सकती है। आधुनिक सीवी पाइपलाइनों के लिए आवश्यक डेटा और कंप्यूटिंग के पैमाने के बारे में बात करते समय यह तथ्य याद रखने योग्य है।
नतीजतन, लगभग सभी मामलों में, सैकड़ों (या हजारों) छवियां सीवी कार्यों के लिए उच्च गुणवत्ता वाले एमएल मॉडल को प्रशिक्षित करने के लिए पर्याप्त नहीं हैं। लगभग सभी आधुनिक सीवी सिस्टम जटिल डीएल मॉडल आर्किटेक्चर का उपयोग करते हैं, और यदि वे पर्याप्त संख्या में सावधानीपूर्वक चयनित प्रशिक्षण उदाहरणों, यानी लेबल की गई छवियों के साथ आपूर्ति नहीं की जाती हैं, तो वे अंडर-फिट रहेंगे। इसलिए, यह एक बहुत ही सामान्य चलन बनता जा रहा है कि मजबूत, सामान्यीकृत, उत्पादन-गुणवत्ता वाले डीएल सिस्टम को प्रशिक्षित करने के लिए अक्सर लाखों ध्यान से चुनी गई छवियों की आवश्यकता होती है.
साथ ही, वीडियो एनालिटिक्स के लिए, कई वीडियो स्ट्रीम से प्राप्त वीडियो फ़ाइलों या फ़्रेम की गतिशील प्रकृति को देखते हुए एक प्रशिक्षण डेटासेट को चुनने और संकलित करने का कार्य अधिक जटिल हो सकता है।
यहां, हम कुछ सबसे लोकप्रिय (स्थिर छवियों और वीडियो क्लिप दोनों से मिलकर) को सूचीबद्ध करते हैं।
कंप्यूटर विज़न मॉडल के लिए लोकप्रिय ओपन-सोर्स डेटासेट
सभी डेटासेट सभी प्रकार के CV कार्यों के लिए समान रूप से उपयुक्त नहीं होते हैं। सामान्य सीवी कार्यों में शामिल हैं:
- छवि वर्गीकरण
- वस्तु का पता लगाना
- वस्तु विभाजन
- मल्टी-ऑब्जेक्ट एनोटेशन
- चित्र कैप्शनिंग
- मानव मुद्रा अनुमान
- वीडियो फ्रेम विश्लेषिकी
हम लोकप्रिय, ओपन-सोर्स डेटासेट की सूची दिखाते हैं जो इनमें से अधिकांश श्रेणियों को कवर करते हैं।
इमेजनेट (सबसे प्रसिद्ध)
IMAGEnet दुनिया भर के शोधकर्ताओं को आसानी से सुलभ छवि डेटाबेस प्रदान करने के लिए एक सतत शोध प्रयास है। यह है, शायद, सबसे प्रसिद्ध छवि डेटासेट वहाँ से बाहर है और शोधकर्ताओं और शिक्षार्थियों द्वारा समान रूप से स्वर्ण मानक के रूप में उद्धृत किया गया है।
यह परियोजना छवि और दृष्टि अनुसंधान क्षेत्र में लगातार बढ़ती भावना से प्रेरित थी - अधिक डेटा की आवश्यकता। यह वर्डनेट पदानुक्रम के अनुसार आयोजित किया जाता है। वर्डनेट में प्रत्येक सार्थक अवधारणा, जिसे संभवतः कई शब्दों या शब्द वाक्यांशों द्वारा वर्णित किया जाता है, को "समानार्थक सेट" या "सिंसेट" कहा जाता है। वर्डनेट में 100,000 से अधिक सिनसेट हैं। इसी तरह, इमेजनेट का लक्ष्य प्रत्येक सिनसेट को चित्रित करने के लिए औसतन 1000 छवियां प्रदान करना है।
इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (ILSVRC) एक वैश्विक वार्षिक प्रतियोगिता है जो बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन और इमेज वर्गीकरण के लिए एल्गोरिदम (विश्वविद्यालय या कॉर्पोरेट अनुसंधान समूहों की टीमों द्वारा प्रस्तुत) का मूल्यांकन करती है। एक उच्च-स्तरीय प्रेरणा शोधकर्ताओं को वस्तुओं की एक विस्तृत विविधता का पता लगाने में प्रगति की तुलना करने की अनुमति देना है - काफी महंगे लेबलिंग प्रयास का लाभ उठाते हुए। एक अन्य प्रेरणा पुनर्प्राप्ति और एनोटेशन के लिए बड़े पैमाने पर छवि अनुक्रमण के लिए कंप्यूटर दृष्टि की प्रगति को मापना है। यह मशीन लर्निंग के पूरे क्षेत्र में सबसे चर्चित वार्षिक प्रतियोगिताओं में से एक है।
सीआईएफएआर-10 (शुरुआती के लिए)
यह एक है छवियों का संग्रह जो आमतौर पर क्षेत्र में शुरुआती लोगों द्वारा मशीन लर्निंग और कंप्यूटर विज़न एल्गोरिदम को प्रशिक्षित करने के लिए उपयोग किया जाता है। यह मशीन लर्निंग रिसर्च के लिए सबसे लोकप्रिय डेटासेट में से एक है एल्गोरिदम की त्वरित तुलना क्योंकि यह प्रशिक्षण और हाइपरपैरामीटर ट्यूनिंग प्रक्रिया पर अनुचित कम्प्यूटेशनल बोझ डाले बिना किसी विशेष वास्तुकला की कमजोरी और ताकत को पकड़ लेता है।
इसमें १० अलग-अलग वर्गों में ६०,०००, ३२×३२ रंगीन चित्र हैं। कक्षाएं हवाई जहाज, कारों, पक्षियों, बिल्लियों, हिरणों, कुत्तों, मेंढकों, घोड़ों, जहाजों और ट्रकों का प्रतिनिधित्व करती हैं।
मेगाफेस और एलएफडब्ल्यू (चेहरा पहचान)
जंगली में लेबल किए गए चेहरे (LFW) चेहरे की तस्वीरों का एक डेटाबेस है जिसे के लिए डिज़ाइन किया गया है अप्रतिबंधित चेहरा पहचान की समस्या का अध्ययन. इसमें 13,233 लोगों की 5,749 छवियां शामिल हैं, जिन्हें वेब से स्क्रैप और पता लगाया गया है। एक अतिरिक्त चुनौती के रूप में, एमएल शोधकर्ता 1,680 लोगों के लिए चित्रों का उपयोग कर सकते हैं, जिनके पास डेटासेट में दो या अधिक विशिष्ट फ़ोटो हैं। नतीजतन, यह चेहरा सत्यापन के लिए एक सार्वजनिक बेंचमार्क है, जिसे जोड़ी मिलान के रूप में भी जाना जाता है (एक ही व्यक्ति की कम से कम दो छवियों की आवश्यकता होती है)।
मेगाफैस एक बड़े पैमाने पर खुला स्रोत चेहरा पहचान प्रशिक्षण डेटासेट है जो कि सबसे महत्वपूर्ण बेंचमार्क में से एक के रूप में कार्य करता है व्यावसायिक चेहरा पहचानने की समस्या. इसमें 4,753,320 पहचान वाले 672,057 चेहरे शामिल हैं और यह बड़े डीएल वास्तुकला प्रशिक्षण के लिए अत्यधिक उपयुक्त है। सभी चित्र फ़्लिकर (याहू के डेटासेट) से प्राप्त किए गए हैं और क्रिएटिव कॉमन्स के तहत लाइसेंस प्राप्त हैं।
आईएमडीबी-विकी (लिंग और आयु पहचान)
आईएमडीबी-विकी उनमें से एक है सबसे बड़ा और खुला स्रोत वाला डेटासेट प्रशिक्षण के लिए लिंग और आयु लेबल के साथ चेहरे के चित्र। कुल मिलाकर, इस डेटासेट में 523,051 चेहरे की छवियां हैं, जहां आईएमडीबी से 460,723 हस्तियों और विकिपीडिया से 20,284 हस्तियों से 62,328 चेहरे की छवियां प्राप्त की जाती हैं।
एमएस कोको (ऑब्जेक्ट डिटेक्शन एंड सेगमेंटेशन)
कोको या संदर्भ में सामान्य वस्तुएं बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। डेटासेट में 91 ऑब्जेक्ट प्रकारों की तस्वीरें होती हैं जिन्हें आसानी से पहचाना जा सकता है और 2.5k छवियों में कुल 328 मिलियन लेबल किए गए उदाहरण हैं। इसके अलावा, यह मल्टी-ऑब्जेक्ट लेबलिंग, सेगमेंटेशन मास्क एनोटेशन, इमेज कैप्शनिंग और की-पॉइंट डिटेक्शन जैसे अधिक जटिल सीवी कार्यों के लिए संसाधन प्रदान करता है।. यह एक सहज ज्ञान युक्त एपीआई द्वारा अच्छी तरह से समर्थित है जो COCO में एनोटेशन को लोड करने, पार्स करने और विज़ुअलाइज़ करने में सहायता करता है। एपीआई कई एनोटेशन प्रारूपों का समर्थन करता है।
MPII मानव मुद्रा (मुद्रा अनुमान)
यह डेटासेट व्यक्त मानव मुद्रा अनुमान के मूल्यांकन के लिए प्रयोग किया जाता है। इसमें लगभग 25K छवियां शामिल हैं जिनमें 40K से अधिक लोग हैं एनोटेट शरीर के जोड़. यहां, प्रत्येक छवि को एक YouTube वीडियो से निकाला जाता है और पूर्ववर्ती और गैर-एनोटेटेड फ़्रेमों के साथ प्रदान किया जाता है। कुल मिलाकर डेटासेट 410 मानवीय गतिविधियों को कवर करता है, और प्रत्येक छवि को एक गतिविधि लेबल के साथ प्रदान किया जाता है।
फ़्लिकर -30k (छवि कैप्शनिंग)
यह एक इमेज कैप्शन कॉर्पस है जिसमें 158,915 भीड़-सोर्स वाले कैप्शन हैं जो 31,783 छवियों का वर्णन करते हैं। यह पिछले का विस्तार है फ्लिकर 8k डेटासेट. नई छवियां और कैप्शन रोजमर्रा की गतिविधियों और घटनाओं में शामिल लोगों पर केंद्रित हैं।
20BN-समथिंग-समथिंग (मानव क्रिया के वीडियो क्लिप)
यह डेटासेट एक है घनी लेबल वाली वीडियो क्लिप का बड़ा संग्रह कि कैसे रोजमर्रा की वस्तुओं के साथ पूर्व-निर्धारित बुनियादी क्रियाएं करने वाले मनुष्य. यह बड़ी संख्या में भीड़ कार्यकर्ताओं द्वारा बनाया गया था, जो एमएल मॉडल को भौतिक दुनिया में होने वाली बुनियादी क्रियाओं की एक अच्छी समझ विकसित करने की अनुमति देता है।
यहां सामान्य मानवीय गतिविधियों का एक सबसेट है जो इस डेटासेट में कैप्चर किया गया है:
बार्कले डीपड्राइव (स्वायत्त वाहन प्रशिक्षण के लिए)
RSI बर्कले डीपड्राइव डेटासेट यूसी बर्कले द्वारा विभिन्न प्रकार के एनोटेशन के साथ 100K से अधिक वीडियो अनुक्रम शामिल हैं, जिसमें ऑब्जेक्ट बाउंडिंग बॉक्स, देखने योग्य क्षेत्र, छवि-स्तरीय टैगिंग, लेन मार्किंग और पूर्ण-फ्रेम इंस्टेंस सेगमेंटेशन शामिल हैं। इसके अलावा, डेटासेट सुविधाएँ विभिन्न भौगोलिक, पर्यावरण और मौसम स्थितियों का प्रतिनिधित्व करने में व्यापक विविधता.
यह स्वायत्त वाहनों के लिए मजबूत मॉडलों को प्रशिक्षित करने के लिए अत्यधिक उपयोगी है ताकि वे हमेशा बदलती सड़क और ड्राइविंग स्थितियों से आश्चर्यचकित होने की संभावना कम हो।
इन डेटासेट के लिए सही हार्डवेयर और बेंचमार्किंग
कहने की जरूरत नहीं है कि उच्च गुणवत्ता वाले एमएल सिस्टम या व्यावसायिक समाधान के निर्माण के लिए केवल ये डेटासेट होना पर्याप्त नहीं है। किसी भी शैक्षणिक या व्यावसायिक समस्या के लिए इष्टतम समाधान प्राप्त करने के लिए डेटासेट, प्रशिक्षण हार्डवेयर और चतुर ट्यूनिंग और बेंचमार्किंग रणनीति के सही विकल्प का मिश्रण आवश्यक है।
इसीलिए उच्च प्रदर्शन GPU वांछित प्रदर्शन देने के लिए लगभग हमेशा इन डेटासेट के साथ जोड़ा जाता है।
GPU को विकसित किया गया था (मुख्य रूप से वीडियो गेमिंग उद्योग के लिए खानपान) a . को संभालने के लिए समानांतर संगणना की भारी डिग्री हजारों छोटे कंप्यूटिंग कोर का उपयोग करना। वे भी विशेषता बड़ी मेमोरी बैंडविड्थ जब तंत्रिका नेटवर्क सैकड़ों युगों से प्रशिक्षण ले रहा हो, तो इन संगणनाओं के लिए आवश्यक तीव्र डेटाफ्लो (प्रसंस्करण इकाई से धीमी मुख्य मेमोरी और बैक तक) से निपटने के लिए। यह उन्हें बनाता है आदर्श कमोडिटी हार्डवेयर कंप्यूटर विज़न कार्यों के गणना भार से निपटने के लिए।
हालाँकि, बाजार में GPU के लिए कई विकल्प हैं, और यह निश्चित रूप से औसत उपयोगकर्ता को अभिभूत कर सकता है। इस संबंध में संभावित खरीदार का मार्गदर्शन करने के लिए कुछ अच्छी बेंचमार्किंग रणनीतियां हैं जो वर्षों से प्रकाशित हुई हैं। एक अच्छे बेंचमार्किंग अभ्यास को (ए) डीप न्यूरल नेटवर्क (डीएनएन) आर्किटेक्चर, (बी) जीपीयू, और (सी) व्यापक रूप से उपयोग किए जाने वाले डेटासेट (जैसे हमने पिछले अनुभाग में चर्चा की) की कई किस्मों पर विचार करना चाहिए।
उदाहरण के लिए, यह उत्कृष्ट लेख निम्नलिखित पर विचार करता है:
- वास्तुकला: ResNet-152, ResNet-101, ResNet-50, और ResNet-18
- जीपीयू: EVGA (नॉन-ब्लोअर) RTX 2080 ti, गीगाबाइट (धौंकनी) आरटीएक्स 2080 टी, तथा एनवीडिया टाइटन आरटीएक्स
- डेटासेट: IMAGEnet, सीआईएफएआर-100, तथा सीआईएफएआर-10.
साथ ही, एक अच्छे बेंचमार्क के लिए प्रदर्शन के कई आयामों पर विचार किया जाना चाहिए।
विचार करने के लिए प्रदर्शन आयाम
तीन प्राथमिक सूचकांक हैं:
- सेकंड-बैच-टाइम: दूसरा प्रशिक्षण बैच समाप्त करने का समय। GPU के गर्म होने के लिए पर्याप्त समय तक चलने से पहले यह संख्या प्रदर्शन को मापती है। प्रभावी रूप से, नहीं थर्मल थ्रॉटलिंग.
- औसत-बैच-समय: ImageNet में 1 युग के बाद या CIFAR में 15 युगों के बाद औसत बैच समय। यह उपाय ध्यान में रखता है थर्मल थ्रॉटलिंग.
- एक साथ-औसत-बैच-समय: इमेजनेट में 1 युग के बाद औसत बैच समय या CIFAR में 15 युगों के साथ सभी GPU एक साथ चल रहे हैं। यह सभी GPU द्वारा दी गई संयुक्त गर्मी के कारण सिस्टम में थर्मल थ्रॉटलिंग के प्रभाव को मापता है।
मूल। अनुमति के साथ पुनर्प्रकाशित।
संबंधित:
शीर्ष आलेख पिछले 30 दिन | |||||
---|---|---|---|---|---|
|
|
स्रोत: https://www.kdnuggets.com/2021/08/open-source-datasets-computer-vision.html
- "
- &
- 000
- 100
- 100k
- 8k
- पहुँच
- कार्य
- गतिविधियों
- अतिरिक्त
- लाभ
- AI
- हवाई जहाज
- कलन विधि
- एल्गोरिदम
- सब
- विश्लेषण
- विश्लेषिकी
- एपीआई
- आवेदन
- अनुप्रयोगों
- स्थापत्य
- क्षेत्र
- चारों ओर
- लेख
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता (AI)
- स्वायत्त
- स्वायत्त वाहन
- स्वायत्त वाहनों
- बेंचमार्क
- बर्कले
- परिवर्तन
- निर्माण
- व्यापार
- कैप्शन
- कारों
- मामलों
- बिल्ली की
- हस्तियों
- चुनौती
- वर्गीकरण
- वस्तु
- सामान्य
- प्रतियोगिता
- प्रतियोगिताएं
- अंग
- कम्प्यूटर साइंस
- Computer Vision
- कंप्यूटिंग
- समझता है
- कॉर्प
- क्रिएटिव
- तिथि
- डेटा विज्ञान
- डाटाबेस
- सौदा
- ध्यान लगा के पढ़ना या सीखना
- गहरी तंत्रिका नेटवर्क
- गहरे तंत्रिका नेटवर्क
- हिरन
- खोज
- विकसित करना
- डिजिटल
- निदेशक
- विविधता
- कुत्ते की
- ड्राइविंग
- प्रभावी
- ambiental
- घटनाओं
- व्यायाम
- चेहरा
- चेहरा पहचान
- चेहरे के
- फोकस
- ईंधन
- जुआ
- गेमिंग उद्योग
- लिंग
- वैश्विक
- सोना
- अच्छा
- GPU
- GPUs
- विकास
- गाइड
- हार्डवेयर
- यहाँ उत्पन्न करें
- कैसे
- HTTPS
- सैकड़ों
- पहचान
- इलेनॉइस
- की छवि
- IMAGEnet
- इमेजिंग
- सहित
- उद्योगों
- उद्योग
- बुद्धि
- साक्षात्कार
- शामिल
- IT
- लेबलिंग
- लेबल
- बड़ा
- जानें
- सीख रहा हूँ
- उधार
- सूची
- भार
- लंबा
- यंत्र अधिगम
- मशीनें
- प्रमुख
- विनिर्माण
- बाजार
- मुखौटा
- माप
- दस लाख
- ML
- आदर्श
- सबसे लोकप्रिय
- नेटवर्क
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- तंत्रिका जाल
- NLP
- ऑब्जेक्ट डिटेक्शन
- ऑनलाइन
- खुला
- खुला स्रोत
- स्टाफ़
- प्रदर्शन
- मुहावरों
- भौतिक
- लोकप्रिय
- पोस्ट
- परियोजना
- सार्वजनिक
- गुणवत्ता
- कारण
- प्रतीपगमन
- अनुसंधान
- उपयुक्त संसाधन चुनें
- खुदरा
- रन
- दौड़ना
- विक्रय
- स्केल
- विज्ञान
- वैज्ञानिकों
- चयनित
- भावुकता
- सेट
- जहाजों
- So
- सोशल मीडिया
- कहानियों
- स्ट्रेटेजी
- प्रस्तुत
- समर्थन करता है
- प्रणाली
- सिस्टम
- में बात कर
- थर्मल
- पहर
- ऊपर का
- टोरंटो
- प्रशिक्षण
- बदलने
- ट्रकों
- विश्वविद्यालय
- वाहन
- वाहन
- सत्यापन
- वीडियो
- दृष्टि
- दृश्य मान्यता
- वाशिंगटन
- वेब
- कौन
- विकिपीडिया
- अंदर
- शब्द
- काम
- श्रमिकों
- विश्व
- लायक
- X
- याहू
- साल
- यूट्यूब