3डी वीडियो और अमेज़ॅन सेजमेकर स्टूडियो का उपयोग करके एथलीट ट्रैकिंग के लिए 2डी पोज़ का अनुमान लगाना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

आगामी ओलंपिक खेलों के लिए, एक अमेरिकी बहुराष्ट्रीय निगम और दुनिया की सबसे बड़ी प्रौद्योगिकी कंपनियों में से एक Intel® ने 3D एथलीट ट्रैकिंग (3DAT) के आसपास एक अवधारणा विकसित की। 3DAT प्रसारण के दौरान प्रशंसक सगाई बढ़ाने के लिए प्रतियोगिता में एथलीटों के वास्तविक समय के डिजिटल मॉडल बनाने के लिए एक मशीन लर्निंग (एमएल) समाधान है। इंटेल इस तकनीक का लाभ उठाने और अभिजात वर्ग के एथलीटों के प्रशिक्षण के लिए देख रहा था।

3 डी पोज़ पुनर्निर्माण के लिए शास्त्रीय कंप्यूटर विज़न मेथड्स अधिकांश वैज्ञानिकों के लिए बोझिल साबित हुए हैं, यह देखते हुए कि ये मॉडल ज्यादातर एथलीट पर अतिरिक्त सेंसर एम्बेड करने और 3 डी लेबल और मॉडल की कमी पर भरोसा करते हैं। यद्यपि हम नियमित मोबाइल फोन का उपयोग करते हुए सहज डेटा संग्रह तंत्र रख सकते हैं, 3 डी वीडियो डेटा का उपयोग करके 2 डी मॉडल विकसित करना एक चुनौती है, जिसे 2 डी वीडियो में जानकारी की गहराई की कमी को देखते हुए। इंटेल की 3DAT टीम ने इसके साथ भागीदारी की अमेज़न एमएल सॉल्यूशंस लैब (MLSL) 3 डी वीडियो पर 2 डी मानव मुद्रा आकलन तकनीकों को विकसित करने के लिए ताकि उनके एथलीटों के प्रदर्शन के बायोमैकेनिक्स और अन्य मैट्रिक्स को निकालने के लिए कोचों के लिए एक हल्का समाधान बनाया जा सके।

इस अनोखे सहयोग ने इंटेल के समृद्ध इतिहास को नवाचार और अमेज़ॅन एमएल सॉल्यूशन लैब के कंप्यूटर विज़न विशेषज्ञता के साथ एक 3 डी मल्टी-पर्सन पोजिशन पाइपलाइन विकसित करने के लिए 2 डी वीडियो का उपयोग करते हुए इनपुट के रूप में मानक मोबाइल फोन से विकसित किया। अमेज़ॅन सैजमेकर स्टूडियो नोटबुक (एसएम स्टूडियो) विकास के वातावरण के रूप में।

ओलंपिक टेक्नोलॉजी ग्रुप के इंटेल स्पोर्ट्स परफॉर्मेंस के निदेशक जोनाथन ली कहते हैं, “MLSL टीम ने हमारी आवश्यकताओं को सुनने और हमारे ग्राहकों की जरूरतों को पूरा करने वाले समाधान का प्रस्ताव देने के लिए एक अद्भुत काम किया। टीम ने हमारी अपेक्षाओं को पार कर दिया, केवल दो सप्ताह में मोबाइल फोन के साथ कैप्चर किए गए 3 डी वीडियो का उपयोग करके एक 2 डी पोज आकलन पाइप लाइन विकसित करना। अमेज़ॅन सैजमेकर पर हमारे एमएल वर्कलोड को मानकीकृत करके, हमने अपने मॉडलों पर 97% औसत सटीकता हासिल की है। ”

इस पोस्ट में चर्चा की गई है कि कैसे हमने 3D पोज़ अनुमान मॉडल को नियोजित किया और विभिन्न कोणों का उपयोग करते हुए, संयुक्त राज्य अमेरिका से एक डीथिलिट और दो बार के ओलंपिक स्वर्ण पदक विजेता, एश्टन ईटन से एकत्र 3 डी वीडियो डेटा पर 2 डी आउटपुट उत्पन्न किए। यह विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित करने के लिए दो कंप्यूटर विज़न तकनीकों को भी प्रस्तुत करता है, जिससे कोचों को रन के दौरान 3 डी निर्देशांक के एक अद्वितीय सेट का उपयोग करने की अनुमति मिलती है।

चुनौतियां

मानव मुद्रा आकलन तकनीक एक दृश्य में पाए गए व्यक्ति के चित्रमय कंकाल प्रदान करने के लिए कंप्यूटर विज़न उद्देश्य का उपयोग करती है। वे मानव जोड़ों, जैसे कि हथियार, गर्दन और कूल्हों के अनुरूप पूर्वनिर्धारित प्रमुख बिंदुओं के निर्देशांक शामिल हैं। ये निर्देशांक आगे के विश्लेषण के लिए शरीर के अभिविन्यास पर कब्जा करने के लिए उपयोग किए जाते हैं, जैसे कि पोज ट्रैकिंग, आसन विश्लेषण और बाद के मूल्यांकन। कंप्यूटर विज़न और डीप लर्निंग में हालिया प्रगति ने वैज्ञानिकों को 3 डी स्पेस में पोज़ आकलन का पता लगाने में सक्षम बनाया है, जहाँ 2 डी पोज़ अनुमान की तुलना में जेड-एक्सिस अतिरिक्त अंतर्दृष्टि प्रदान करता है। इन अतिरिक्त अंतर्दृष्टि का उपयोग अधिक व्यापक विज़ुअलाइज़ेशन और विश्लेषण के लिए किया जा सकता है। हालांकि, खरोंच से 3 डी पोज अनुमान मॉडल का निर्माण चुनौतीपूर्ण है क्योंकि इसमें 3 डी लेबल के साथ इमेजिंग डेटा की आवश्यकता होती है। इसलिए, कई शोधकर्ता प्रिटेंडेड 3 डी पोज अनुमान मॉडल को नियुक्त करते हैं।

डाटा प्रोसेसिंग पाइपलाइन

हमने एसएम स्टूडियो का उपयोग करके निम्नलिखित आरेख में सचित्र एंड-टू-एंड 3 डी पोज आकलन पाइप लाइन तैयार की है, जिसमें कई घटक शामिल हैं:

अमेज़न सरल भंडारण सेवा (अमेज़न S3) वीडियो डेटा होस्ट करने के लिए बाल्टी
फ्रेम निष्कर्षण मॉड्यूल स्थिर डेटा के लिए वीडियो डेटा परिवर्तित करने के लिए
प्रत्येक फ्रेम में व्यक्तियों के बाउंडिंग बॉक्स का पता लगाने के लिए ऑब्जेक्ट डिटेक्शन मॉड्यूल
भविष्य के मूल्यांकन के उद्देश्यों के लिए 2 डी पोज़ अनुमान
प्रत्येक फ्रेम में प्रत्येक व्यक्ति के लिए 3 डी निर्देशांक उत्पन्न करने के लिए 3 डी पोज आकलन मॉड्यूल
मूल्यांकन और दृश्य मॉड्यूल

एसएम स्टूडियो विकास की प्रक्रिया को सुविधाजनक बनाने, अमेज़ॅन एस 3 में डेटा तक आसान पहुंच, कम्प्यूट क्षमता की उपलब्धता, सॉफ्टवेयर और पुस्तकालय की उपलब्धता, और एमएल अनुप्रयोगों के लिए एक एकीकृत विकास अनुभव (आईडीई) सहित कई सुविधाएँ प्रदान करता है।

सबसे पहले, हम S3 बाल्टी से वीडियो डेटा पढ़ते हैं और फ्रेम-स्तरीय विकास के लिए एक पोर्टेबल नेटवर्क ग्राफिक्स (PNG) प्रारूप में 2D फ्रेम निकाले। हमने फ्रेम में पाए गए प्रत्येक व्यक्ति के बाउंडिंग बॉक्स को उत्पन्न करने के लिए YOLOv3 ऑब्जेक्ट डिटेक्शन का उपयोग किया। अधिक जानकारी के लिए, Apache MXNet के साथ CNN- आधारित डिटेक्टरों के लिए बेंचमार्किंग प्रशिक्षण समय देखें.

अगला, हमने मूल्यांकन और विज़ुअलाइज़ेशन के प्रमुख बिंदुओं को उत्पन्न करने के लिए फ़्रेम और संबंधित बाउंडिंग बॉक्स जानकारी को 3 डी पोज़ अनुमान मॉडल में पास किया। हमने फ्रेम में 2 डी पोज आकलन तकनीक लागू की, और हमने विकास और मूल्यांकन के लिए प्रति फ्रेम मुख्य बिंदुओं को उत्पन्न किया। निम्नलिखित अनुभाग 3 डी पाइपलाइन में प्रत्येक मॉड्यूल के विवरण पर चर्चा करते हैं।

डेटा प्रीप्रोसेसिंग

पहला कदम OpenCV के उपयोग से दिए गए वीडियो से फ्रेम निकालना था जैसा कि निम्नलिखित आकृति में दिखाया गया है। हमने क्रमशः समय और फ़्रेम गणना पर नज़र रखने के लिए दो काउंटरों का उपयोग किया, क्योंकि वीडियो को प्रति सेकंड (एफपीएस) दरों पर विभिन्न फ़्रेमों में कैप्चर किया गया था। हम तो के रूप में छवियों के अनुक्रम संग्रहीतvideo_name + second_count + frame_countपीएनजी प्रारूप में।

वस्तु (व्यक्ति) का पता लगाना

हमने फ्रेम में व्यक्तियों का पता लगाने के लिए पास्कल वीओसी डेटासेट पर आधारित YOLOv3 ढोंग किए गए मॉडल को नियोजित किया। अधिक जानकारी के लिए देखें Amazon SageMaker पर Gluon और Apache MXNet के साथ निर्मित कस्टम मॉडल तैनात करना। YOLOv3 एल्गोरिथ्म ने निम्नलिखित एनिमेशन में दिखाए गए बाउंडिंग बॉक्स का उत्पादन किया (मूल चित्र 910 × 512 पिक्सल के आकार के हैं)।

हमने एक CSV फ़ाइल में बाउंडिंग बॉक्स निर्देशांक संग्रहीत किया है, जिसमें पंक्तियों ने फ़्रेम इंडेक्स, बॉक्स जानकारी को एक सूची के रूप में, और उनके आत्मविश्वास स्कोर को इंगित किया है।

2 डी पोज अनुमान

हमने ResNet-18 V1b को प्रीटेंस किए गए पोज अनुमान मॉडल के रूप में चुना है, जो ऑब्जेक्ट डिटेक्शन मॉडल द्वारा बक्सों के आउटपुट के भीतर मानव पोज का अनुमान लगाने के लिए एक टॉप-डाउन रणनीति पर विचार करता है। हम मनुष्यों को शामिल करने के लिए डिटेक्टर कक्षाओं को फिर से सेट करते हैं ताकि गैर-अधिकतम दमन (एनएमएस) प्रक्रिया को तेजी से निष्पादित किया जा सके। सरल पोज नेटवर्क को प्रमुख बिंदुओं के लिए हीटमैप्स की भविष्यवाणी करने के लिए लागू किया गया था (निम्न एनीमेशन में), और हीटमैप्स में उच्चतम मूल्यों को मूल छवियों पर निर्देशांक में मैप किया गया था।

3 डी पोज अनुमान

हमने एक अत्याधुनिक 3 डी पोज अनुमान एल्गोरिदम को नियोजित किया है जिसमें आरजीबी फ्रेम प्रति बहु-व्यक्ति के लिए कैमरा दूरी-जागरूक टॉप-डाउन पद्धति शामिल है जिसे 3DMPPE (मून एट अल।) के रूप में संदर्भित किया गया है। इस एल्गोरिथ्म में दो प्रमुख चरण शामिल थे:

रूटनेट - एक फसली फ्रेम में किसी व्यक्ति की जड़ के कैमरा-केंद्रित निर्देशांक का अनुमान लगाता है
पोसनेट - फसली छवि में सापेक्ष 3 डी पोज निर्देशांक की भविष्यवाणी करने के लिए एक टॉप-डाउन दृष्टिकोण का उपयोग करता है

अगला, हमने 3D निर्देशांक को मूल स्थान पर वापस लाने के लिए बाउंडिंग बॉक्स जानकारी का उपयोग किया। 3DMPPE ने Human36 और MuCo3D डेटासेट (अधिक जानकारी के लिए, का उपयोग कर प्रशिक्षित दो प्रिन्टेड मॉडल की पेशकश की गीथहब रेपो), जिसमें क्रमशः 17 और 21 प्रमुख बिंदु शामिल हैं, जैसा कि निम्नलिखित एनिमेशन में चित्रित किया गया है। हमने विज़ुअलाइज़ेशन और मूल्यांकन के उद्देश्यों के लिए दो ढके हुए मॉडल द्वारा अनुमानित 3 डी पोज़ निर्देशांक का उपयोग किया।

मूल्यांकन

2 डी और 3 डी पोज आकलन मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमने एक वीडियो में हर फ्रेम के लिए उत्पन्न प्रत्येक संयुक्त के लिए 2 डी पोज (एक्स, वाई) और 3 डी पोज (एक्स, वाई, जेड) का इस्तेमाल किया। डेटासेट के आधार पर विभिन्न महत्वपूर्ण बिंदुओं की संख्या; उदाहरण के लिए, लीड्स स्पोर्ट्स पोज़ डेटासेट (एलएसपी) में 14 शामिल हैं, जबकि एमपीआईआई ह्यूमन पोज़ डेटासेट, जो मानवाधिकारों का आकलन करने के लिए एक अत्याधुनिक मानदंड है, जिसमें ह्यूमन 3.6 एम का जिक्र है, जिसमें 16 प्रमुख बिंदु शामिल हैं। हमने 2 डी और 3 डी पोज अनुमान दोनों के लिए आमतौर पर दो मैट्रिक्स का इस्तेमाल किया, जैसा कि मूल्यांकन पर अगले भाग में बताया गया है। हमारे कार्यान्वयन में, हमारे डिफ़ॉल्ट प्रमुख बिंदु शब्दकोश COCO डिटेक्शन डेटासेट का अनुसरण करते हैं, जिसमें 17 मुख्य बिंदु हैं (निम्न छवि देखें), और आदेश निम्नानुसार परिभाषित किया गया है:

KEY POINTS = {
0: "nose",
1: "left_eye",
2: "right_eye",
3: "left_ear",
4: "right_ear",
5: "left_shoulder",
6: "right_shoulder",
7: "left_elbow",
8: "right_elbow",
9: "left_wrist",
10: "right_wrist",
11: "left_hip",
12: "right_hip",
13: "left_knee",
14: "right_knee",
15: "left_ankle",
16: "right_ankle"
}

संयुक्त स्थिति त्रुटि के अनुसार

संयुक्त स्थिति त्रुटि के अनुसार (MPJPE) जमीनी सच्चाई और एक संयुक्त भविष्यवाणी के बीच यूक्लिडियन दूरी है। चूंकि MPJPE त्रुटि या हानि की दूरी को मापता है, और निचले मान अधिक सटीक होने का संकेत देते हैं।

हम निम्नलिखित छद्म कोड का उपयोग करते हैं:

G को निरूपित करते हैं ground_truth_joint और प्रीप्रोसेस जी द्वारा:
- [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
- शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
पी को निरूपित करते हैं predicted_joint matrix, और किसी भी फ्रेम परिणाम नहीं है या unlabeled है, तो एक शून्य वेक्टर डालने से फ्रेम सूचकांक द्वारा जी और पी संरेखित करें
G और P के बीच तत्व-वार यूक्लिडियन गणना करें, और D को दूरी मैट्रिक्स को निरूपित करें
जगह ले ली_i_,_j 0 के साथ अगर बी_i_,_j
प्रति संयुक्त स्थिति का मतलब डी के प्रत्येक स्तंभ का औसत मूल्य है_s_,_tD_i_,_j ≠ 0

निम्नलिखित आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।

निम्न आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।

सही मुख्य बिंदुओं का प्रतिशत

सही मुख्य बिंदुओं (PCK) का प्रतिशत एक पोज़ मूल्यांकन मीट्रिक का प्रतिनिधित्व करता है जहाँ एक पता लगाया गया संयुक्त सही माना जाता है यदि अनुमानित और वास्तविक संयुक्त के बीच की दूरी एक निश्चित सीमा के भीतर है; यह सीमा भिन्न हो सकती है, जो मैट्रिक्स के कुछ भिन्न रूपों की ओर ले जाती है। आमतौर पर तीन विविधताओं का उपयोग किया जाता है:

PCKh@0.5, जो कि थ्रेशोल्ड को 0.5 * हेड बोन लिंक के रूप में परिभाषित किया गया है
PCK@0.2, जो कि पूर्वानुमानित और वास्तविक जोड़ के बीच की दूरी <0.2 * धड़ व्यास है
150 मिमी एक कठिन सीमा के रूप में

हमारे समाधान में, हमने PCKh@0.5 को हमारे जमीनी सच्चाई XML डेटा के रूप में इस्तेमाल किया जिसमें हेड बाउंडिंग बॉक्स था, जिसका उपयोग हम हेड-बोन लिंक की गणना करने के लिए कर सकते हैं। हमारे ज्ञान का सबसे अच्छा करने के लिए, किसी भी मौजूदा पैकेज में इस मीट्रिक के लिए उपयोग में आसान कार्यान्वयन नहीं है; इसलिए, हमने मीट्रिक इन-हाउस लागू किया।

छद्म कोड

हमने निम्नलिखित छद्म कोड का उपयोग किया है:

बता दें कि G ने जमीनी सच्चाई को संयुक्त रूप से दर्शाया है और G:
- [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
- शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
प्रत्येक फ्रेम के लिए एफ_i, इसके bbox बी का उपयोग करें_i= (x)_मिनट,y_मिनट,x_{मैक्स},y_{मैक्स}) प्रत्येक फ्रेम के संबंधित हेड-बोन लिंक एच की गणना करने के लिए_i , जहां एच_i= (एक्स)_{मैक्स}-x_मिनट)²+ (Y_{मैक्स}-y_मिनट)²)^½
बता दें कि P ने संयुक्त मैट्रिक्स की भविष्यवाणी की है और फ्रेम इंडेक्स द्वारा G और P को संरेखित किया है; यदि कोई फ्रेम गायब है, तो शून्य टेंसर डालें
जी और पी के बीच तत्व-वार 2-मानक त्रुटि की गणना करें; E को त्रुटि मैट्रिक्स बताएं, जहां E_i_,_j=||G_i_,_j-P_i_,_j||
स्केल की गई मैट्रिक्स S = H * I की गणना करें, जहां मैं E के समान आयाम के साथ एक पहचान मैट्रिक्स का प्रतिनिधित्व करता हूं
0 से विभाजन से बचने के लिए, S की जगह लें_i_,_j 0.000001 के साथ अगर बी_i_,_j=1
गणना की गई त्रुटि मैट्रिक्स एस_i_,_j=E_i_,_j/S_i_,_j
थ्रेशोल्ड = 0.5 के साथ एसई को फ़िल्टर करें, और सी को काउंटर मैट्रिक्स को निरूपित करें, जहां सी_i_,_j= 1 यदि एस.ई._i_,_j<0.5 और सी_i_,_j= 0 एल्विस
गिनें कि C में कितने 1 हैं_*_,_j c as के रूप में और गिनें कि B में कितने 0 हैं_*_,_j के रूप में b⃗
PCKh@0.5=mean (ch / b.XNUMX)

छठे चरण में (एस की जगह)_i_,_j0.000001 के साथ अगर बी_i_,_j= 1), हमने 0 के साथ 0.00001 प्रविष्टियों को प्रतिस्थापित करके स्केल की गई त्रुटि मैट्रिक्स के लिए एक जाल स्थापित किया है। किसी भी संख्या को छोटी संख्या से विभाजित करने से एक प्रवर्धित संख्या उत्पन्न होती है। क्योंकि हमने बाद में गलत अनुमानों को फ़िल्टर करने के लिए दहलीज के रूप में 0.5 का उपयोग किया था, अशक्त प्रविष्टियों को सही भविष्यवाणी से बाहर रखा गया था क्योंकि यह बहुत बड़ा था। हमने बाद में बूलियन मैट्रिक्स में न केवल शून्य प्रविष्टियों को गिना। इस तरह, हमने संपूर्ण डेटासेट की अशक्त प्रविष्टियों को भी बाहर कर दिया। हमने इस क्रियान्वयन में एक इंजीनियरिंग ट्रिक का प्रस्ताव किया था, जिसमें ज़मीनी सच्चाई में मौजूद गैर-सूचीबद्ध प्रमुख बिंदुओं से शून्य प्रविष्टियों को फ़िल्टर करने या किसी भी व्यक्ति के साथ फ़्रेम का पता लगाने के लिए नहीं था।

वीडियो संरेखण

हमने एथलीटों से वीडियो डेटा कैप्चर करने के लिए दो अलग-अलग कैमरा कॉन्फ़िगरेशन पर विचार किया, अर्थात् लाइन और बॉक्स सेटअप। लाइन सेटअप में चार कैमरों को एक रेखा के साथ रखा जाता है जबकि बॉक्स सेटअप में एक आयत के प्रत्येक कोने में चार कैमरे होते हैं। कैमरों को लाइन कॉन्फ़िगरेशन में सिंक्रनाइज़ किया गया था और फिर थोड़ा ओवरलैपिंग कैमरा कोणों का उपयोग करते हुए, एक दूसरे से पूर्वनिर्धारित दूरी पर पंक्तिबद्ध किया गया था। लाइन कॉन्फ़िगरेशन में वीडियो संरेखण का उद्देश्य बार-बार और खाली फ़्रेमों को हटाने के लिए लगातार कैमरों को जोड़ने वाले टाइमस्टैम्प की पहचान करना था। हमने ऑप्टिकल फ्लो के ऑब्जेक्ट डिटेक्शन और क्रॉस-सहसंबंध के आधार पर दो दृष्टिकोणों को लागू किया।

ऑब्जेक्ट डिटेक्शन एल्गोरिदम

हमने इस दृष्टिकोण में ऑब्जेक्ट डिटेक्शन परिणामों का उपयोग किया है, जिसमें पिछले चरणों से व्यक्तियों के बाउंडिंग बॉक्स शामिल हैं। ऑब्जेक्ट डिटेक्शन तकनीकों ने प्रत्येक फ्रेम में प्रति व्यक्ति एक संभावना (स्कोर) का उत्पादन किया। इसलिए, एक वीडियो में स्कोर की साजिश रचने से हमें उस फ्रेम को खोजने में सक्षम हुआ जहां पहला व्यक्ति दिखाई दिया या गायब हो गया। बॉक्स कॉन्फ़िगरेशन से संदर्भ फ्रेम प्रत्येक वीडियो से निकाला गया था, और सभी कैमरों को पहले फ्रेम के संदर्भों के आधार पर सिंक्रनाइज़ किया गया था। लाइन कॉन्फ़िगरेशन में, प्रारंभ और समाप्ति टाइमस्टैम्प दोनों को निकाला गया था, और एक नियम-आधारित एल्गोरिथ्म को लगातार वीडियो को जोड़ने और संरेखित करने के लिए लागू किया गया था, जैसा कि निम्नलिखित छवियों में चित्रित किया गया है।

निम्नलिखित आकृति में शीर्ष वीडियो मूल वीडियो को लाइन कॉन्फ़िगरेशन में दिखाते हैं। व्यक्ति का पता लगाने के स्कोर के नीचे। अगली पंक्तियों में स्कोर पर लागू 0.75 की दहलीज दिखाई देती है, और उचित शुरुआत और अंत टाइमस्टैम्प निकाले जाते हैं। नीचे की पंक्ति आगे के विश्लेषण के लिए संरेखित वीडियो दिखाती है।

पल पल

हमने स्नैप (एमओएस) के क्षण को पेश किया - एक प्रसिद्ध संरेखण दृष्टिकोण - जो इंगित करता है कि जब कोई घटना या खेल शुरू होता है। जब कोई एथलीट प्रवेश करता है या दृश्य छोड़ता है तो हम फ्रेम संख्या निर्धारित करना चाहते थे। आमतौर पर, रनिंग फील्ड पर शुरुआत से पहले और स्नैप खत्म होने के बाद अपेक्षाकृत कम मूवमेंट होता है, जबकि एथलीट के दौड़ने पर अपेक्षाकृत काफी मूवमेंट होता है। इसलिए, सहज रूप से, हम फ्रेम से पहले और बाद में वीडियो के आंदोलन में अपेक्षाकृत बड़े अंतर के साथ वीडियो फ्रेम ढूंढकर एमओएस फ्रेम पा सकते हैं। यह अंत करने के लिए, हमने एमओएस का अनुमान लगाने के लिए घनत्व ऑप्टिकल प्रवाह, वीडियो में आंदोलन का एक मानक उपाय का उपयोग किया। सबसे पहले, एक वीडियो दिया, हमने लगातार दो फ्रेमों के लिए ऑप्टिकल प्रवाह की गणना की। निम्नलिखित वीडियो क्षैतिज अक्ष पर घने ऑप्टिकल प्रवाह का दृश्य प्रस्तुत करते हैं।

हमने फिर दो लगातार फ्रेम के ऑप्टिकल प्रवाह के बीच क्रॉस-सहसंबंध को मापा, क्योंकि क्रॉस-सहसंबंध उनके बीच के अंतर को मापता है। प्रत्येक कोण के कैमरा-कैप्चर किए गए वीडियो के लिए, हमने इसके MOS को खोजने के लिए एल्गोरिथ्म को दोहराया। अंत में, हमने विभिन्न कोणों से वीडियो संरेखित करने के लिए मुख्य फ्रेम के रूप में MOS फ्रेम का उपयोग किया। निम्न वीडियो इन चरणों का विवरण देता है।

निष्कर्ष

इस पोस्ट में प्रदर्शित कार्य का तकनीकी उद्देश्य 3 डी वीडियो का उपयोग करके 2 डी पोज अनुमान समन्वय का उत्पादन करने वाला एक गहन-शिक्षण आधारित समाधान विकसित करना था। हमने 3D बहु-व्यक्ति मुद्रा अनुमान प्राप्त करने के लिए एक टॉप-डाउन दृष्टिकोण के साथ एक कैमरा दूरी-जागरूक तकनीक को नियोजित किया। इसके अलावा, वस्तु पहचान, क्रॉस-सहसंबंध और ऑप्टिकल प्रवाह एल्गोरिदम का उपयोग करते हुए, हमने विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित किया।

इस कार्य ने कोचों को समय के साथ बायोमैकेनिक्स मेट्रिक्स जैसे वेग को मापने के लिए और मात्रात्मक और गुणात्मक तरीकों का उपयोग करके एथलीटों के प्रदर्शन की निगरानी करने के लिए 3 डी पोज़ अनुमानों का विश्लेषण करने में सक्षम बनाया है।

इस पोस्ट ने वास्तविक दुनिया के परिदृश्यों में 3 डी पोज़ निकालने के लिए एक सरलीकृत प्रक्रिया का प्रदर्शन किया, जिसे तैराकी या टीम के खेल जैसे अन्य खेलों में कोचिंग के लिए बढ़ाया जा सकता है।

यदि आप अपने उत्पादों और सेवाओं में एमएल के उपयोग को तेज करने में मदद करना चाहते हैं, तो कृपया संपर्क करें अमेज़न एमएल सॉल्यूशंस लैब कार्यक्रम.

संदर्भ

मून, ग्यांगसिक, जू योंग चांग और क्यॉन्ग म्यू ली। "एकल आरजीबी छवि से 3 डी बहु-व्यक्ति मुद्रा अनुमान के लिए कैमरा दूरी-जागरूक टॉप-डाउन दृष्टिकोण।" में कंप्यूटर विजन पर IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, पीपी। 10133-10142। 2019।

लेखक के बारे में

समन सर्राफ में एक डेटा वैज्ञानिक है अमेज़न एमएल सॉल्यूशंस लैब। उनकी पृष्ठभूमि एप्लाइड मशीन लर्निंग में है जिसमें गहरी शिक्षा, कंप्यूटर दृष्टि और समय श्रृंखला डेटा भविष्यवाणी शामिल है।

अमेरीक कांग इंटेल पर एक एल्गोरिदम इंजीनियर है, जहां वह ओलंपिक खेलों में बायोमेकेनिकल विश्लेषण करने के लिए मशीन लर्निंग और कंप्यूटर विज़न तकनीक विकसित करता है। वह एआई के साथ मानव शरीर विज्ञान की मात्रा निर्धारित करने में रुचि रखते हैं, खासकर एक खेल प्रदर्शन के संदर्भ में।

एश्टन ईटन इंटेल में एक उत्पाद विकास इंजीनियर है, जहां वह खेल प्रदर्शन को आगे बढ़ाने के उद्देश्य से डिजाइन और परीक्षण प्रौद्योगिकियों में मदद करता है। वह ग्राहकों और इंजीनियरिंग टीम के साथ काम करता है ताकि ग्राहकों की जरूरतों को पूरा करने वाले उत्पादों की पहचान और विकास किया जा सके। वह मानव प्रदर्शन के लिए विज्ञान और प्रौद्योगिकी को लागू करने में रुचि रखते हैं।

जोनाथन ली इंटेल में खेल प्रदर्शन प्रौद्योगिकी, ओलंपिक प्रौद्योगिकी समूह के निदेशक हैं। उन्होंने यूसीएलए में एक अंडरग्रेजुएट के रूप में स्वास्थ्य के लिए मशीन लर्निंग के आवेदन का अध्ययन किया और ऑक्सफोर्ड विश्वविद्यालय में अपने स्नातक कार्य के दौरान। उनके कैरियर ने स्वास्थ्य और मानव प्रदर्शन के लिए एल्गोरिदम और सेंसर विकास पर ध्यान केंद्रित किया है। वह अब इंटेल में 3 डी एथलीट ट्रैकिंग परियोजना का नेतृत्व करता है।

नेल्सन लेउंग इंटेल में खेल प्रदर्शन सीओई में प्लेटफ़ॉर्म आर्किटेक्ट है, जहां वह एथलेटिक प्रदर्शन को बढ़ाने वाले अत्याधुनिक उत्पादों के लिए एंड-टू-एंड आर्किटेक्चर को परिभाषित करता है। वह विभिन्न इंटेल भागीदारों के पैमाने पर इन मशीन लर्निंग समाधानों के कार्यान्वयन, परिनियोजन और उत्पादीकरण का नेतृत्व करता है।

सुचित्रा सत्यनारायण में एक प्रबंधक है अमेज़न एमएल सॉल्यूशंस लैब, जहां वह विभिन्न उद्योग ऊर्ध्वाधरों में AWS के ग्राहकों को अपने AI और क्लाउड अपनाने में तेजी लाने में मदद करता है। वह सिंगापुर के नानयांग टेक्नोलॉजिकल यूनिवर्सिटी से कंप्यूटर विज़न में पीएचडी रखती हैं।

वेनजेन झू के साथ एक डेटा वैज्ञानिक है अमेज़न एमएल समाधान लैब Amazon Web Services पर टीम। वह AWS ग्राहकों के लिए उद्योगों में विभिन्न समस्याओं को हल करने के लिए मशीन लर्निंग और डीप लर्निंग का लाभ उठाती है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/estimating-3d-pose-for-athlete-tracking-using-2d-videos-and-amazon-sagemaker-studio/

समय टिकट: अप्रैल १, २०२४

समय टिकट: अक्टूबर 26, 2021

अमेज़ॅन कॉम्प्रिहेंड कस्टम मॉडल के लिए मॉडल कॉपी फीचर के लॉन्च की घोषणा

स्रोत क्लस्टर:

एडब्ल्यूएस मशीन लर्निंग ब्लॉग

स्रोत नोड: 1191345

समय टिकट: फ़रवरी 2, 2022

Amazon भाषा AI सेवाओं के साथ अपने संपर्क केंद्र के लिए कॉल विश्लेषण पोस्ट करें

स्रोत क्लस्टर:

एडब्ल्यूएस मशीन लर्निंग ब्लॉग

स्रोत नोड: 1575233

समय टिकट: दिसम्बर 17, 2021

Amazon SageMaker के साथ एक स्वचालित समीक्षा छवि निरीक्षण सेवा विकसित करें

स्रोत क्लस्टर:

एडब्ल्यूएस मशीन लर्निंग ब्लॉग

स्रोत नोड: 1882748

समय टिकट: जनवरी 10, 2022

DICOM छवियों को एनोटेट करें और Amazon SageMaker पर MONAI ढांचे का उपयोग करके एक ML मॉडल बनाएं

स्रोत क्लस्टर:

एडब्ल्यूएस मशीन लर्निंग ब्लॉग

स्रोत नोड: 893877

समय टिकट: जून 4, 2021

3 डी वीडियो और अमेज़ॅन सैजमेकर स्टूडियो का उपयोग करके एथलीट ट्रैकिंग के लिए 2 डी पोज़ का अनुमान लगाना

प्लेटो द्वारा पुनर्प्रकाशित

चुनौतियां

डाटा प्रोसेसिंग पाइपलाइन

डेटा प्रीप्रोसेसिंग

वस्तु (व्यक्ति) का पता लगाना

2 डी पोज अनुमान

3 डी पोज अनुमान

मूल्यांकन

संयुक्त स्थिति त्रुटि के अनुसार

सही मुख्य बिंदुओं का प्रतिशत

छद्म कोड

वीडियो संरेखण

ऑब्जेक्ट डिटेक्शन एल्गोरिदम

पल पल

निष्कर्ष

संदर्भ

लेखक के बारे में

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग

कोड को लिखे बिना या एपीआई को एकीकृत किए बिना अमेज़ॅन फ्रॉड डिटेक्टर के साथ बैच धोखाधड़ी की भविष्यवाणी करें

AWS AI सेवाओं और ट्विलियो मीडिया स्ट्रीम के साथ वास्तविक समय में मेडिकल ट्रांसक्रिप्शन विश्लेषण करें

कस्टम सेजमेकर प्रोजेक्ट टेम्प्लेट बनाएं - सर्वोत्तम अभ्यास

बहाव का पता चलने पर अमेज़ॅन सेजमेकर पाइपलाइन के साथ स्वचालित मॉडल पुनः प्रशिक्षण

अमेज़ॅन फ्रॉड डिटेक्टर के लिए स्वचालित डेटा प्रोफाइलर के साथ मॉडलों को तेजी से प्रशिक्षित करें

DICOM छवियों को एनोटेट करें और Amazon SageMaker पर MONAI ढांचे का उपयोग करके एक ML मॉडल बनाएं

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा