आगामी ओलंपिक खेलों के लिए, एक अमेरिकी बहुराष्ट्रीय निगम और दुनिया की सबसे बड़ी प्रौद्योगिकी कंपनियों में से एक Intel® ने 3D एथलीट ट्रैकिंग (3DAT) के आसपास एक अवधारणा विकसित की। 3DAT प्रसारण के दौरान प्रशंसक सगाई बढ़ाने के लिए प्रतियोगिता में एथलीटों के वास्तविक समय के डिजिटल मॉडल बनाने के लिए एक मशीन लर्निंग (एमएल) समाधान है। इंटेल इस तकनीक का लाभ उठाने और अभिजात वर्ग के एथलीटों के प्रशिक्षण के लिए देख रहा था।
3 डी पोज़ पुनर्निर्माण के लिए शास्त्रीय कंप्यूटर विज़न मेथड्स अधिकांश वैज्ञानिकों के लिए बोझिल साबित हुए हैं, यह देखते हुए कि ये मॉडल ज्यादातर एथलीट पर अतिरिक्त सेंसर एम्बेड करने और 3 डी लेबल और मॉडल की कमी पर भरोसा करते हैं। यद्यपि हम नियमित मोबाइल फोन का उपयोग करते हुए सहज डेटा संग्रह तंत्र रख सकते हैं, 3 डी वीडियो डेटा का उपयोग करके 2 डी मॉडल विकसित करना एक चुनौती है, जिसे 2 डी वीडियो में जानकारी की गहराई की कमी को देखते हुए। इंटेल की 3DAT टीम ने इसके साथ भागीदारी की अमेज़न एमएल सॉल्यूशंस लैब (MLSL) 3 डी वीडियो पर 2 डी मानव मुद्रा आकलन तकनीकों को विकसित करने के लिए ताकि उनके एथलीटों के प्रदर्शन के बायोमैकेनिक्स और अन्य मैट्रिक्स को निकालने के लिए कोचों के लिए एक हल्का समाधान बनाया जा सके।
इस अनोखे सहयोग ने इंटेल के समृद्ध इतिहास को नवाचार और अमेज़ॅन एमएल सॉल्यूशन लैब के कंप्यूटर विज़न विशेषज्ञता के साथ एक 3 डी मल्टी-पर्सन पोजिशन पाइपलाइन विकसित करने के लिए 2 डी वीडियो का उपयोग करते हुए इनपुट के रूप में मानक मोबाइल फोन से विकसित किया। अमेज़ॅन सैजमेकर स्टूडियो नोटबुक (एसएम स्टूडियो) विकास के वातावरण के रूप में।
ओलंपिक टेक्नोलॉजी ग्रुप के इंटेल स्पोर्ट्स परफॉर्मेंस के निदेशक जोनाथन ली कहते हैं, “MLSL टीम ने हमारी आवश्यकताओं को सुनने और हमारे ग्राहकों की जरूरतों को पूरा करने वाले समाधान का प्रस्ताव देने के लिए एक अद्भुत काम किया। टीम ने हमारी अपेक्षाओं को पार कर दिया, केवल दो सप्ताह में मोबाइल फोन के साथ कैप्चर किए गए 3 डी वीडियो का उपयोग करके एक 2 डी पोज आकलन पाइप लाइन विकसित करना। अमेज़ॅन सैजमेकर पर हमारे एमएल वर्कलोड को मानकीकृत करके, हमने अपने मॉडलों पर 97% औसत सटीकता हासिल की है। ”
इस पोस्ट में चर्चा की गई है कि कैसे हमने 3D पोज़ अनुमान मॉडल को नियोजित किया और विभिन्न कोणों का उपयोग करते हुए, संयुक्त राज्य अमेरिका से एक डीथिलिट और दो बार के ओलंपिक स्वर्ण पदक विजेता, एश्टन ईटन से एकत्र 3 डी वीडियो डेटा पर 2 डी आउटपुट उत्पन्न किए। यह विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित करने के लिए दो कंप्यूटर विज़न तकनीकों को भी प्रस्तुत करता है, जिससे कोचों को रन के दौरान 3 डी निर्देशांक के एक अद्वितीय सेट का उपयोग करने की अनुमति मिलती है।
चुनौतियां
मानव मुद्रा आकलन तकनीक एक दृश्य में पाए गए व्यक्ति के चित्रमय कंकाल प्रदान करने के लिए कंप्यूटर विज़न उद्देश्य का उपयोग करती है। वे मानव जोड़ों, जैसे कि हथियार, गर्दन और कूल्हों के अनुरूप पूर्वनिर्धारित प्रमुख बिंदुओं के निर्देशांक शामिल हैं। ये निर्देशांक आगे के विश्लेषण के लिए शरीर के अभिविन्यास पर कब्जा करने के लिए उपयोग किए जाते हैं, जैसे कि पोज ट्रैकिंग, आसन विश्लेषण और बाद के मूल्यांकन। कंप्यूटर विज़न और डीप लर्निंग में हालिया प्रगति ने वैज्ञानिकों को 3 डी स्पेस में पोज़ आकलन का पता लगाने में सक्षम बनाया है, जहाँ 2 डी पोज़ अनुमान की तुलना में जेड-एक्सिस अतिरिक्त अंतर्दृष्टि प्रदान करता है। इन अतिरिक्त अंतर्दृष्टि का उपयोग अधिक व्यापक विज़ुअलाइज़ेशन और विश्लेषण के लिए किया जा सकता है। हालांकि, खरोंच से 3 डी पोज अनुमान मॉडल का निर्माण चुनौतीपूर्ण है क्योंकि इसमें 3 डी लेबल के साथ इमेजिंग डेटा की आवश्यकता होती है। इसलिए, कई शोधकर्ता प्रिटेंडेड 3 डी पोज अनुमान मॉडल को नियुक्त करते हैं।
डाटा प्रोसेसिंग पाइपलाइन
हमने एसएम स्टूडियो का उपयोग करके निम्नलिखित आरेख में सचित्र एंड-टू-एंड 3 डी पोज आकलन पाइप लाइन तैयार की है, जिसमें कई घटक शामिल हैं:
- अमेज़न सरल भंडारण सेवा (अमेज़न S3) वीडियो डेटा होस्ट करने के लिए बाल्टी
- फ्रेम निष्कर्षण मॉड्यूल स्थिर डेटा के लिए वीडियो डेटा परिवर्तित करने के लिए
- प्रत्येक फ्रेम में व्यक्तियों के बाउंडिंग बॉक्स का पता लगाने के लिए ऑब्जेक्ट डिटेक्शन मॉड्यूल
- भविष्य के मूल्यांकन के उद्देश्यों के लिए 2 डी पोज़ अनुमान
- प्रत्येक फ्रेम में प्रत्येक व्यक्ति के लिए 3 डी निर्देशांक उत्पन्न करने के लिए 3 डी पोज आकलन मॉड्यूल
- मूल्यांकन और दृश्य मॉड्यूल
एसएम स्टूडियो विकास की प्रक्रिया को सुविधाजनक बनाने, अमेज़ॅन एस 3 में डेटा तक आसान पहुंच, कम्प्यूट क्षमता की उपलब्धता, सॉफ्टवेयर और पुस्तकालय की उपलब्धता, और एमएल अनुप्रयोगों के लिए एक एकीकृत विकास अनुभव (आईडीई) सहित कई सुविधाएँ प्रदान करता है।
सबसे पहले, हम S3 बाल्टी से वीडियो डेटा पढ़ते हैं और फ्रेम-स्तरीय विकास के लिए एक पोर्टेबल नेटवर्क ग्राफिक्स (PNG) प्रारूप में 2D फ्रेम निकाले। हमने फ्रेम में पाए गए प्रत्येक व्यक्ति के बाउंडिंग बॉक्स को उत्पन्न करने के लिए YOLOv3 ऑब्जेक्ट डिटेक्शन का उपयोग किया। अधिक जानकारी के लिए, Apache MXNet के साथ CNN- आधारित डिटेक्टरों के लिए बेंचमार्किंग प्रशिक्षण समय देखें.
अगला, हमने मूल्यांकन और विज़ुअलाइज़ेशन के प्रमुख बिंदुओं को उत्पन्न करने के लिए फ़्रेम और संबंधित बाउंडिंग बॉक्स जानकारी को 3 डी पोज़ अनुमान मॉडल में पास किया। हमने फ्रेम में 2 डी पोज आकलन तकनीक लागू की, और हमने विकास और मूल्यांकन के लिए प्रति फ्रेम मुख्य बिंदुओं को उत्पन्न किया। निम्नलिखित अनुभाग 3 डी पाइपलाइन में प्रत्येक मॉड्यूल के विवरण पर चर्चा करते हैं।
डेटा प्रीप्रोसेसिंग
पहला कदम OpenCV के उपयोग से दिए गए वीडियो से फ्रेम निकालना था जैसा कि निम्नलिखित आकृति में दिखाया गया है। हमने क्रमशः समय और फ़्रेम गणना पर नज़र रखने के लिए दो काउंटरों का उपयोग किया, क्योंकि वीडियो को प्रति सेकंड (एफपीएस) दरों पर विभिन्न फ़्रेमों में कैप्चर किया गया था। हम तो के रूप में छवियों के अनुक्रम संग्रहीतvideo_name + second_count + frame_count
पीएनजी प्रारूप में।
वस्तु (व्यक्ति) का पता लगाना
हमने फ्रेम में व्यक्तियों का पता लगाने के लिए पास्कल वीओसी डेटासेट पर आधारित YOLOv3 ढोंग किए गए मॉडल को नियोजित किया। अधिक जानकारी के लिए देखें Amazon SageMaker पर Gluon और Apache MXNet के साथ निर्मित कस्टम मॉडल तैनात करना। YOLOv3 एल्गोरिथ्म ने निम्नलिखित एनिमेशन में दिखाए गए बाउंडिंग बॉक्स का उत्पादन किया (मूल चित्र 910 × 512 पिक्सल के आकार के हैं)।
हमने एक CSV फ़ाइल में बाउंडिंग बॉक्स निर्देशांक संग्रहीत किया है, जिसमें पंक्तियों ने फ़्रेम इंडेक्स, बॉक्स जानकारी को एक सूची के रूप में, और उनके आत्मविश्वास स्कोर को इंगित किया है।
2 डी पोज अनुमान
हमने ResNet-18 V1b को प्रीटेंस किए गए पोज अनुमान मॉडल के रूप में चुना है, जो ऑब्जेक्ट डिटेक्शन मॉडल द्वारा बक्सों के आउटपुट के भीतर मानव पोज का अनुमान लगाने के लिए एक टॉप-डाउन रणनीति पर विचार करता है। हम मनुष्यों को शामिल करने के लिए डिटेक्टर कक्षाओं को फिर से सेट करते हैं ताकि गैर-अधिकतम दमन (एनएमएस) प्रक्रिया को तेजी से निष्पादित किया जा सके। सरल पोज नेटवर्क को प्रमुख बिंदुओं के लिए हीटमैप्स की भविष्यवाणी करने के लिए लागू किया गया था (निम्न एनीमेशन में), और हीटमैप्स में उच्चतम मूल्यों को मूल छवियों पर निर्देशांक में मैप किया गया था।
3 डी पोज अनुमान
हमने एक अत्याधुनिक 3 डी पोज अनुमान एल्गोरिदम को नियोजित किया है जिसमें आरजीबी फ्रेम प्रति बहु-व्यक्ति के लिए कैमरा दूरी-जागरूक टॉप-डाउन पद्धति शामिल है जिसे 3DMPPE (मून एट अल।) के रूप में संदर्भित किया गया है। इस एल्गोरिथ्म में दो प्रमुख चरण शामिल थे:
- रूटनेट - एक फसली फ्रेम में किसी व्यक्ति की जड़ के कैमरा-केंद्रित निर्देशांक का अनुमान लगाता है
- पोसनेट - फसली छवि में सापेक्ष 3 डी पोज निर्देशांक की भविष्यवाणी करने के लिए एक टॉप-डाउन दृष्टिकोण का उपयोग करता है
अगला, हमने 3D निर्देशांक को मूल स्थान पर वापस लाने के लिए बाउंडिंग बॉक्स जानकारी का उपयोग किया। 3DMPPE ने Human36 और MuCo3D डेटासेट (अधिक जानकारी के लिए, का उपयोग कर प्रशिक्षित दो प्रिन्टेड मॉडल की पेशकश की गीथहब रेपो), जिसमें क्रमशः 17 और 21 प्रमुख बिंदु शामिल हैं, जैसा कि निम्नलिखित एनिमेशन में चित्रित किया गया है। हमने विज़ुअलाइज़ेशन और मूल्यांकन के उद्देश्यों के लिए दो ढके हुए मॉडल द्वारा अनुमानित 3 डी पोज़ निर्देशांक का उपयोग किया।
मूल्यांकन
2 डी और 3 डी पोज आकलन मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमने एक वीडियो में हर फ्रेम के लिए उत्पन्न प्रत्येक संयुक्त के लिए 2 डी पोज (एक्स, वाई) और 3 डी पोज (एक्स, वाई, जेड) का इस्तेमाल किया। डेटासेट के आधार पर विभिन्न महत्वपूर्ण बिंदुओं की संख्या; उदाहरण के लिए, लीड्स स्पोर्ट्स पोज़ डेटासेट (एलएसपी) में 14 शामिल हैं, जबकि एमपीआईआई ह्यूमन पोज़ डेटासेट, जो मानवाधिकारों का आकलन करने के लिए एक अत्याधुनिक मानदंड है, जिसमें ह्यूमन 3.6 एम का जिक्र है, जिसमें 16 प्रमुख बिंदु शामिल हैं। हमने 2 डी और 3 डी पोज अनुमान दोनों के लिए आमतौर पर दो मैट्रिक्स का इस्तेमाल किया, जैसा कि मूल्यांकन पर अगले भाग में बताया गया है। हमारे कार्यान्वयन में, हमारे डिफ़ॉल्ट प्रमुख बिंदु शब्दकोश COCO डिटेक्शन डेटासेट का अनुसरण करते हैं, जिसमें 17 मुख्य बिंदु हैं (निम्न छवि देखें), और आदेश निम्नानुसार परिभाषित किया गया है:
KEY POINTS = {
0: "nose",
1: "left_eye",
2: "right_eye",
3: "left_ear",
4: "right_ear",
5: "left_shoulder",
6: "right_shoulder",
7: "left_elbow",
8: "right_elbow",
9: "left_wrist",
10: "right_wrist",
11: "left_hip",
12: "right_hip",
13: "left_knee",
14: "right_knee",
15: "left_ankle",
16: "right_ankle"
}
संयुक्त स्थिति त्रुटि के अनुसार
संयुक्त स्थिति त्रुटि के अनुसार (MPJPE) जमीनी सच्चाई और एक संयुक्त भविष्यवाणी के बीच यूक्लिडियन दूरी है। चूंकि MPJPE त्रुटि या हानि की दूरी को मापता है, और निचले मान अधिक सटीक होने का संकेत देते हैं।
हम निम्नलिखित छद्म कोड का उपयोग करते हैं:
- G को निरूपित करते हैं
ground_truth_joint
और प्रीप्रोसेस जी द्वारा:- [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
- शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
- पी को निरूपित करते हैं
predicted_joint matrix
, और किसी भी फ्रेम परिणाम नहीं है या unlabeled है, तो एक शून्य वेक्टर डालने से फ्रेम सूचकांक द्वारा जी और पी संरेखित करें - G और P के बीच तत्व-वार यूक्लिडियन गणना करें, और D को दूरी मैट्रिक्स को निरूपित करें
- जगह ले लीi,j 0 के साथ अगर बीi,j
- प्रति संयुक्त स्थिति का मतलब डी के प्रत्येक स्तंभ का औसत मूल्य हैs,tDi,j ≠ 0
निम्नलिखित आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।
निम्न आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।
सही मुख्य बिंदुओं का प्रतिशत
सही मुख्य बिंदुओं (PCK) का प्रतिशत एक पोज़ मूल्यांकन मीट्रिक का प्रतिनिधित्व करता है जहाँ एक पता लगाया गया संयुक्त सही माना जाता है यदि अनुमानित और वास्तविक संयुक्त के बीच की दूरी एक निश्चित सीमा के भीतर है; यह सीमा भिन्न हो सकती है, जो मैट्रिक्स के कुछ भिन्न रूपों की ओर ले जाती है। आमतौर पर तीन विविधताओं का उपयोग किया जाता है:
- PCKh@0.5, जो कि थ्रेशोल्ड को 0.5 * हेड बोन लिंक के रूप में परिभाषित किया गया है
- PCK@0.2, जो कि पूर्वानुमानित और वास्तविक जोड़ के बीच की दूरी <0.2 * धड़ व्यास है
- 150 मिमी एक कठिन सीमा के रूप में
हमारे समाधान में, हमने PCKh@0.5 को हमारे जमीनी सच्चाई XML डेटा के रूप में इस्तेमाल किया जिसमें हेड बाउंडिंग बॉक्स था, जिसका उपयोग हम हेड-बोन लिंक की गणना करने के लिए कर सकते हैं। हमारे ज्ञान का सबसे अच्छा करने के लिए, किसी भी मौजूदा पैकेज में इस मीट्रिक के लिए उपयोग में आसान कार्यान्वयन नहीं है; इसलिए, हमने मीट्रिक इन-हाउस लागू किया।
छद्म कोड
हमने निम्नलिखित छद्म कोड का उपयोग किया है:
- बता दें कि G ने जमीनी सच्चाई को संयुक्त रूप से दर्शाया है और G:
- [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
- शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
- प्रत्येक फ्रेम के लिए एफi, इसके bbox बी का उपयोग करेंi= (x)मिनट,yमिनट,xमैक्स,yमैक्स) प्रत्येक फ्रेम के संबंधित हेड-बोन लिंक एच की गणना करने के लिएi , जहां एचi= (एक्स)मैक्स-xमिनट)2+ (Yमैक्स-yमिनट)2)½
- बता दें कि P ने संयुक्त मैट्रिक्स की भविष्यवाणी की है और फ्रेम इंडेक्स द्वारा G और P को संरेखित किया है; यदि कोई फ्रेम गायब है, तो शून्य टेंसर डालें
- जी और पी के बीच तत्व-वार 2-मानक त्रुटि की गणना करें; E को त्रुटि मैट्रिक्स बताएं, जहां Ei,j=||Gi,j-Pi,j||
- स्केल की गई मैट्रिक्स S = H * I की गणना करें, जहां मैं E के समान आयाम के साथ एक पहचान मैट्रिक्स का प्रतिनिधित्व करता हूं
- 0 से विभाजन से बचने के लिए, S की जगह लेंi,j 0.000001 के साथ अगर बीi,j=1
- गणना की गई त्रुटि मैट्रिक्स एसi,j=Ei,j/Si,j
- थ्रेशोल्ड = 0.5 के साथ एसई को फ़िल्टर करें, और सी को काउंटर मैट्रिक्स को निरूपित करें, जहां सीi,j= 1 यदि एस.ई.i,j<0.5 और सीi,j= 0 एल्विस
- गिनें कि C में कितने 1 हैं*,j c as के रूप में और गिनें कि B में कितने 0 हैं*,j के रूप में b⃗
- PCKh@0.5=mean (ch / b.XNUMX)
छठे चरण में (एस की जगह)i,j0.000001 के साथ अगर बीi,j= 1), हमने 0 के साथ 0.00001 प्रविष्टियों को प्रतिस्थापित करके स्केल की गई त्रुटि मैट्रिक्स के लिए एक जाल स्थापित किया है। किसी भी संख्या को छोटी संख्या से विभाजित करने से एक प्रवर्धित संख्या उत्पन्न होती है। क्योंकि हमने बाद में गलत अनुमानों को फ़िल्टर करने के लिए दहलीज के रूप में 0.5 का उपयोग किया था, अशक्त प्रविष्टियों को सही भविष्यवाणी से बाहर रखा गया था क्योंकि यह बहुत बड़ा था। हमने बाद में बूलियन मैट्रिक्स में न केवल शून्य प्रविष्टियों को गिना। इस तरह, हमने संपूर्ण डेटासेट की अशक्त प्रविष्टियों को भी बाहर कर दिया। हमने इस क्रियान्वयन में एक इंजीनियरिंग ट्रिक का प्रस्ताव किया था, जिसमें ज़मीनी सच्चाई में मौजूद गैर-सूचीबद्ध प्रमुख बिंदुओं से शून्य प्रविष्टियों को फ़िल्टर करने या किसी भी व्यक्ति के साथ फ़्रेम का पता लगाने के लिए नहीं था।
वीडियो संरेखण
हमने एथलीटों से वीडियो डेटा कैप्चर करने के लिए दो अलग-अलग कैमरा कॉन्फ़िगरेशन पर विचार किया, अर्थात् लाइन और बॉक्स सेटअप। लाइन सेटअप में चार कैमरों को एक रेखा के साथ रखा जाता है जबकि बॉक्स सेटअप में एक आयत के प्रत्येक कोने में चार कैमरे होते हैं। कैमरों को लाइन कॉन्फ़िगरेशन में सिंक्रनाइज़ किया गया था और फिर थोड़ा ओवरलैपिंग कैमरा कोणों का उपयोग करते हुए, एक दूसरे से पूर्वनिर्धारित दूरी पर पंक्तिबद्ध किया गया था। लाइन कॉन्फ़िगरेशन में वीडियो संरेखण का उद्देश्य बार-बार और खाली फ़्रेमों को हटाने के लिए लगातार कैमरों को जोड़ने वाले टाइमस्टैम्प की पहचान करना था। हमने ऑप्टिकल फ्लो के ऑब्जेक्ट डिटेक्शन और क्रॉस-सहसंबंध के आधार पर दो दृष्टिकोणों को लागू किया।
ऑब्जेक्ट डिटेक्शन एल्गोरिदम
हमने इस दृष्टिकोण में ऑब्जेक्ट डिटेक्शन परिणामों का उपयोग किया है, जिसमें पिछले चरणों से व्यक्तियों के बाउंडिंग बॉक्स शामिल हैं। ऑब्जेक्ट डिटेक्शन तकनीकों ने प्रत्येक फ्रेम में प्रति व्यक्ति एक संभावना (स्कोर) का उत्पादन किया। इसलिए, एक वीडियो में स्कोर की साजिश रचने से हमें उस फ्रेम को खोजने में सक्षम हुआ जहां पहला व्यक्ति दिखाई दिया या गायब हो गया। बॉक्स कॉन्फ़िगरेशन से संदर्भ फ्रेम प्रत्येक वीडियो से निकाला गया था, और सभी कैमरों को पहले फ्रेम के संदर्भों के आधार पर सिंक्रनाइज़ किया गया था। लाइन कॉन्फ़िगरेशन में, प्रारंभ और समाप्ति टाइमस्टैम्प दोनों को निकाला गया था, और एक नियम-आधारित एल्गोरिथ्म को लगातार वीडियो को जोड़ने और संरेखित करने के लिए लागू किया गया था, जैसा कि निम्नलिखित छवियों में चित्रित किया गया है।
निम्नलिखित आकृति में शीर्ष वीडियो मूल वीडियो को लाइन कॉन्फ़िगरेशन में दिखाते हैं। व्यक्ति का पता लगाने के स्कोर के नीचे। अगली पंक्तियों में स्कोर पर लागू 0.75 की दहलीज दिखाई देती है, और उचित शुरुआत और अंत टाइमस्टैम्प निकाले जाते हैं। नीचे की पंक्ति आगे के विश्लेषण के लिए संरेखित वीडियो दिखाती है।
पल पल
हमने स्नैप (एमओएस) के क्षण को पेश किया - एक प्रसिद्ध संरेखण दृष्टिकोण - जो इंगित करता है कि जब कोई घटना या खेल शुरू होता है। जब कोई एथलीट प्रवेश करता है या दृश्य छोड़ता है तो हम फ्रेम संख्या निर्धारित करना चाहते थे। आमतौर पर, रनिंग फील्ड पर शुरुआत से पहले और स्नैप खत्म होने के बाद अपेक्षाकृत कम मूवमेंट होता है, जबकि एथलीट के दौड़ने पर अपेक्षाकृत काफी मूवमेंट होता है। इसलिए, सहज रूप से, हम फ्रेम से पहले और बाद में वीडियो के आंदोलन में अपेक्षाकृत बड़े अंतर के साथ वीडियो फ्रेम ढूंढकर एमओएस फ्रेम पा सकते हैं। यह अंत करने के लिए, हमने एमओएस का अनुमान लगाने के लिए घनत्व ऑप्टिकल प्रवाह, वीडियो में आंदोलन का एक मानक उपाय का उपयोग किया। सबसे पहले, एक वीडियो दिया, हमने लगातार दो फ्रेमों के लिए ऑप्टिकल प्रवाह की गणना की। निम्नलिखित वीडियो क्षैतिज अक्ष पर घने ऑप्टिकल प्रवाह का दृश्य प्रस्तुत करते हैं।
हमने फिर दो लगातार फ्रेम के ऑप्टिकल प्रवाह के बीच क्रॉस-सहसंबंध को मापा, क्योंकि क्रॉस-सहसंबंध उनके बीच के अंतर को मापता है। प्रत्येक कोण के कैमरा-कैप्चर किए गए वीडियो के लिए, हमने इसके MOS को खोजने के लिए एल्गोरिथ्म को दोहराया। अंत में, हमने विभिन्न कोणों से वीडियो संरेखित करने के लिए मुख्य फ्रेम के रूप में MOS फ्रेम का उपयोग किया। निम्न वीडियो इन चरणों का विवरण देता है।
निष्कर्ष
इस पोस्ट में प्रदर्शित कार्य का तकनीकी उद्देश्य 3 डी वीडियो का उपयोग करके 2 डी पोज अनुमान समन्वय का उत्पादन करने वाला एक गहन-शिक्षण आधारित समाधान विकसित करना था। हमने 3D बहु-व्यक्ति मुद्रा अनुमान प्राप्त करने के लिए एक टॉप-डाउन दृष्टिकोण के साथ एक कैमरा दूरी-जागरूक तकनीक को नियोजित किया। इसके अलावा, वस्तु पहचान, क्रॉस-सहसंबंध और ऑप्टिकल प्रवाह एल्गोरिदम का उपयोग करते हुए, हमने विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित किया।
इस कार्य ने कोचों को समय के साथ बायोमैकेनिक्स मेट्रिक्स जैसे वेग को मापने के लिए और मात्रात्मक और गुणात्मक तरीकों का उपयोग करके एथलीटों के प्रदर्शन की निगरानी करने के लिए 3 डी पोज़ अनुमानों का विश्लेषण करने में सक्षम बनाया है।
इस पोस्ट ने वास्तविक दुनिया के परिदृश्यों में 3 डी पोज़ निकालने के लिए एक सरलीकृत प्रक्रिया का प्रदर्शन किया, जिसे तैराकी या टीम के खेल जैसे अन्य खेलों में कोचिंग के लिए बढ़ाया जा सकता है।
यदि आप अपने उत्पादों और सेवाओं में एमएल के उपयोग को तेज करने में मदद करना चाहते हैं, तो कृपया संपर्क करें अमेज़न एमएल सॉल्यूशंस लैब कार्यक्रम.
संदर्भ
मून, ग्यांगसिक, जू योंग चांग और क्यॉन्ग म्यू ली। "एकल आरजीबी छवि से 3 डी बहु-व्यक्ति मुद्रा अनुमान के लिए कैमरा दूरी-जागरूक टॉप-डाउन दृष्टिकोण।" में कंप्यूटर विजन पर IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, पीपी। 10133-10142। 2019।
लेखक के बारे में
समन सर्राफ में एक डेटा वैज्ञानिक है अमेज़न एमएल सॉल्यूशंस लैब। उनकी पृष्ठभूमि एप्लाइड मशीन लर्निंग में है जिसमें गहरी शिक्षा, कंप्यूटर दृष्टि और समय श्रृंखला डेटा भविष्यवाणी शामिल है।
अमेरीक कांग इंटेल पर एक एल्गोरिदम इंजीनियर है, जहां वह ओलंपिक खेलों में बायोमेकेनिकल विश्लेषण करने के लिए मशीन लर्निंग और कंप्यूटर विज़न तकनीक विकसित करता है। वह एआई के साथ मानव शरीर विज्ञान की मात्रा निर्धारित करने में रुचि रखते हैं, खासकर एक खेल प्रदर्शन के संदर्भ में।
एश्टन ईटन इंटेल में एक उत्पाद विकास इंजीनियर है, जहां वह खेल प्रदर्शन को आगे बढ़ाने के उद्देश्य से डिजाइन और परीक्षण प्रौद्योगिकियों में मदद करता है। वह ग्राहकों और इंजीनियरिंग टीम के साथ काम करता है ताकि ग्राहकों की जरूरतों को पूरा करने वाले उत्पादों की पहचान और विकास किया जा सके। वह मानव प्रदर्शन के लिए विज्ञान और प्रौद्योगिकी को लागू करने में रुचि रखते हैं।
जोनाथन ली इंटेल में खेल प्रदर्शन प्रौद्योगिकी, ओलंपिक प्रौद्योगिकी समूह के निदेशक हैं। उन्होंने यूसीएलए में एक अंडरग्रेजुएट के रूप में स्वास्थ्य के लिए मशीन लर्निंग के आवेदन का अध्ययन किया और ऑक्सफोर्ड विश्वविद्यालय में अपने स्नातक कार्य के दौरान। उनके कैरियर ने स्वास्थ्य और मानव प्रदर्शन के लिए एल्गोरिदम और सेंसर विकास पर ध्यान केंद्रित किया है। वह अब इंटेल में 3 डी एथलीट ट्रैकिंग परियोजना का नेतृत्व करता है।
नेल्सन लेउंग इंटेल में खेल प्रदर्शन सीओई में प्लेटफ़ॉर्म आर्किटेक्ट है, जहां वह एथलेटिक प्रदर्शन को बढ़ाने वाले अत्याधुनिक उत्पादों के लिए एंड-टू-एंड आर्किटेक्चर को परिभाषित करता है। वह विभिन्न इंटेल भागीदारों के पैमाने पर इन मशीन लर्निंग समाधानों के कार्यान्वयन, परिनियोजन और उत्पादीकरण का नेतृत्व करता है।
सुचित्रा सत्यनारायण में एक प्रबंधक है अमेज़न एमएल सॉल्यूशंस लैब, जहां वह विभिन्न उद्योग ऊर्ध्वाधरों में AWS के ग्राहकों को अपने AI और क्लाउड अपनाने में तेजी लाने में मदद करता है। वह सिंगापुर के नानयांग टेक्नोलॉजिकल यूनिवर्सिटी से कंप्यूटर विज़न में पीएचडी रखती हैं।
वेनजेन झू के साथ एक डेटा वैज्ञानिक है अमेज़न एमएल समाधान लैब Amazon Web Services पर टीम। वह AWS ग्राहकों के लिए उद्योगों में विभिन्न समस्याओं को हल करने के लिए मशीन लर्निंग और डीप लर्निंग का लाभ उठाती है।
- 3d
- पहुँच
- अतिरिक्त
- दत्तक ग्रहण
- AI
- कलन विधि
- एल्गोरिदम
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- अमेरिकन
- विश्लेषण
- एनीमेशन
- अपाचे
- आवेदन
- अनुप्रयोगों
- स्थापत्य
- चारों ओर
- एथलीटों
- उपलब्धता
- एडब्ल्यूएस
- बेंचमार्क
- BEST
- मुक्केबाज़ी
- इमारत
- कैमरों
- कैरियर
- चुनौती
- बादल
- बादल को गोद लेना
- कोड
- सहयोग
- स्तंभ
- कंपनियों
- प्रतियोगिता
- गणना करना
- Computer Vision
- सम्मेलन
- आत्मविश्वास
- समझता है
- ग्राहक
- तिथि
- आँकड़े वाला वैज्ञानिक
- ध्यान लगा के पढ़ना या सीखना
- डिज़ाइन
- खोज
- विकसित करना
- विकास
- डीआईडी
- डिजिटल
- आयाम
- निदेशक
- दूरी
- इंजीनियर
- अभियांत्रिकी
- में प्रवेश करती है
- वातावरण
- अनुमान
- कार्यक्रम
- निष्कर्षण
- विशेषताएं
- आकृति
- अंत में
- प्रथम
- प्रवाह
- प्रारूप
- भविष्य
- Games
- gif
- सोना
- स्नातक
- समूह
- सिर
- स्वास्थ्य
- इतिहास
- कैसे
- HTTPS
- मनुष्य
- पहचान करना
- पहचान
- आईईईई
- की छवि
- इमेजिंग
- सहित
- बढ़ना
- अनुक्रमणिका
- उद्योगों
- उद्योग
- करें-
- नवोन्मेष
- अंतर्दृष्टि
- इंटेल
- अंतरराष्ट्रीय स्तर पर
- IT
- काम
- कुंजी
- ज्ञान
- लेबल
- बड़ा
- सीख रहा हूँ
- लीवरेज
- पुस्तकालय
- लाइन
- LINK
- सूची
- सुनना
- स्थान
- यंत्र अधिगम
- प्रमुख
- माप
- मेट्रिक्स
- ML
- मोबाइल
- मोबाइल फोन
- आदर्श
- चन्द्रमा
- यानी
- नेटवर्क
- नाक
- पुस्तिकाओं
- ऑब्जेक्ट डिटेक्शन
- ऑफर
- ओलिंपिक
- OpenCV
- आदेश
- अन्य
- ऑक्सफोर्ड
- प्रदर्शन
- फोन
- मंच
- शुद्धता
- भविष्यवाणी
- भविष्यवाणियों
- वर्तमान
- प्रस्तुत
- एस्ट्रो मॉल
- उत्पाद विकास
- उत्पाद
- कार्यक्रम
- परियोजना
- मात्रात्मक
- रेंज
- दरें
- वास्तविक समय
- आवश्यकताएँ
- परिणाम
- रन
- दौड़ना
- sagemaker
- स्केल
- विज्ञान
- विज्ञान और प्रौद्योगिकी
- वैज्ञानिकों
- निर्बाध
- चयनित
- सेंसर
- कई
- सेवाएँ
- सेट
- सरल
- सिंगापुर
- स्नैप
- So
- सॉफ्टवेयर
- समाधान ढूंढे
- हल
- अंतरिक्ष
- खेल
- खेल-कूद
- प्रारंभ
- राज्य
- भंडारण
- की दुकान
- स्ट्रेटेजी
- तैराकी
- तकनीकी
- टेक्नोलॉजीज
- टेक्नोलॉजी
- परीक्षण
- पहर
- ऊपर का
- ट्रैक
- ट्रैकिंग
- प्रशिक्षण
- यूसीएलए
- यूनाइटेड
- संयुक्त राज्य अमेरिका
- विश्वविद्यालय
- यूनिवर्सिटी ऑफ ओक्सफोर्ड
- us
- मूल्य
- वेग
- वीडियो
- वीडियो
- दृष्टि
- दृश्य
- VOC
- वेब
- वेब सेवाओं
- अंदर
- काम
- कार्य
- X
- एक्सएमएल
- शून्य