3 डी वीडियो और अमेज़ॅन सैजमेकर स्टूडियो का उपयोग करके एथलीट ट्रैकिंग के लिए 2 डी पोज़ का अनुमान लगाना

स्रोत नोड: 808260

आगामी ओलंपिक खेलों के लिए, एक अमेरिकी बहुराष्ट्रीय निगम और दुनिया की सबसे बड़ी प्रौद्योगिकी कंपनियों में से एक Intel® ने 3D एथलीट ट्रैकिंग (3DAT) के आसपास एक अवधारणा विकसित की। 3DAT प्रसारण के दौरान प्रशंसक सगाई बढ़ाने के लिए प्रतियोगिता में एथलीटों के वास्तविक समय के डिजिटल मॉडल बनाने के लिए एक मशीन लर्निंग (एमएल) समाधान है। इंटेल इस तकनीक का लाभ उठाने और अभिजात वर्ग के एथलीटों के प्रशिक्षण के लिए देख रहा था।

3 डी पोज़ पुनर्निर्माण के लिए शास्त्रीय कंप्यूटर विज़न मेथड्स अधिकांश वैज्ञानिकों के लिए बोझिल साबित हुए हैं, यह देखते हुए कि ये मॉडल ज्यादातर एथलीट पर अतिरिक्त सेंसर एम्बेड करने और 3 डी लेबल और मॉडल की कमी पर भरोसा करते हैं। यद्यपि हम नियमित मोबाइल फोन का उपयोग करते हुए सहज डेटा संग्रह तंत्र रख सकते हैं, 3 डी वीडियो डेटा का उपयोग करके 2 डी मॉडल विकसित करना एक चुनौती है, जिसे 2 डी वीडियो में जानकारी की गहराई की कमी को देखते हुए। इंटेल की 3DAT टीम ने इसके साथ भागीदारी की अमेज़न एमएल सॉल्यूशंस लैब (MLSL) 3 डी वीडियो पर 2 डी मानव मुद्रा आकलन तकनीकों को विकसित करने के लिए ताकि उनके एथलीटों के प्रदर्शन के बायोमैकेनिक्स और अन्य मैट्रिक्स को निकालने के लिए कोचों के लिए एक हल्का समाधान बनाया जा सके।

इस अनोखे सहयोग ने इंटेल के समृद्ध इतिहास को नवाचार और अमेज़ॅन एमएल सॉल्यूशन लैब के कंप्यूटर विज़न विशेषज्ञता के साथ एक 3 डी मल्टी-पर्सन पोजिशन पाइपलाइन विकसित करने के लिए 2 डी वीडियो का उपयोग करते हुए इनपुट के रूप में मानक मोबाइल फोन से विकसित किया। अमेज़ॅन सैजमेकर स्टूडियो नोटबुक (एसएम स्टूडियो) विकास के वातावरण के रूप में।

ओलंपिक टेक्नोलॉजी ग्रुप के इंटेल स्पोर्ट्स परफॉर्मेंस के निदेशक जोनाथन ली कहते हैं, “MLSL टीम ने हमारी आवश्यकताओं को सुनने और हमारे ग्राहकों की जरूरतों को पूरा करने वाले समाधान का प्रस्ताव देने के लिए एक अद्भुत काम किया। टीम ने हमारी अपेक्षाओं को पार कर दिया, केवल दो सप्ताह में मोबाइल फोन के साथ कैप्चर किए गए 3 डी वीडियो का उपयोग करके एक 2 डी पोज आकलन पाइप लाइन विकसित करना। अमेज़ॅन सैजमेकर पर हमारे एमएल वर्कलोड को मानकीकृत करके, हमने अपने मॉडलों पर 97% औसत सटीकता हासिल की है। ”

इस पोस्ट में चर्चा की गई है कि कैसे हमने 3D पोज़ अनुमान मॉडल को नियोजित किया और विभिन्न कोणों का उपयोग करते हुए, संयुक्त राज्य अमेरिका से एक डीथिलिट और दो बार के ओलंपिक स्वर्ण पदक विजेता, एश्टन ईटन से एकत्र 3 डी वीडियो डेटा पर 2 डी आउटपुट उत्पन्न किए। यह विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित करने के लिए दो कंप्यूटर विज़न तकनीकों को भी प्रस्तुत करता है, जिससे कोचों को रन के दौरान 3 डी निर्देशांक के एक अद्वितीय सेट का उपयोग करने की अनुमति मिलती है।

चुनौतियां

मानव मुद्रा आकलन तकनीक एक दृश्य में पाए गए व्यक्ति के चित्रमय कंकाल प्रदान करने के लिए कंप्यूटर विज़न उद्देश्य का उपयोग करती है। वे मानव जोड़ों, जैसे कि हथियार, गर्दन और कूल्हों के अनुरूप पूर्वनिर्धारित प्रमुख बिंदुओं के निर्देशांक शामिल हैं। ये निर्देशांक आगे के विश्लेषण के लिए शरीर के अभिविन्यास पर कब्जा करने के लिए उपयोग किए जाते हैं, जैसे कि पोज ट्रैकिंग, आसन विश्लेषण और बाद के मूल्यांकन। कंप्यूटर विज़न और डीप लर्निंग में हालिया प्रगति ने वैज्ञानिकों को 3 डी स्पेस में पोज़ आकलन का पता लगाने में सक्षम बनाया है, जहाँ 2 डी पोज़ अनुमान की तुलना में जेड-एक्सिस अतिरिक्त अंतर्दृष्टि प्रदान करता है। इन अतिरिक्त अंतर्दृष्टि का उपयोग अधिक व्यापक विज़ुअलाइज़ेशन और विश्लेषण के लिए किया जा सकता है। हालांकि, खरोंच से 3 डी पोज अनुमान मॉडल का निर्माण चुनौतीपूर्ण है क्योंकि इसमें 3 डी लेबल के साथ इमेजिंग डेटा की आवश्यकता होती है। इसलिए, कई शोधकर्ता प्रिटेंडेड 3 डी पोज अनुमान मॉडल को नियुक्त करते हैं।

डाटा प्रोसेसिंग पाइपलाइन

हमने एसएम स्टूडियो का उपयोग करके निम्नलिखित आरेख में सचित्र एंड-टू-एंड 3 डी पोज आकलन पाइप लाइन तैयार की है, जिसमें कई घटक शामिल हैं:

  • अमेज़न सरल भंडारण सेवा (अमेज़न S3) वीडियो डेटा होस्ट करने के लिए बाल्टी
  • फ्रेम निष्कर्षण मॉड्यूल स्थिर डेटा के लिए वीडियो डेटा परिवर्तित करने के लिए
  • प्रत्येक फ्रेम में व्यक्तियों के बाउंडिंग बॉक्स का पता लगाने के लिए ऑब्जेक्ट डिटेक्शन मॉड्यूल
  • भविष्य के मूल्यांकन के उद्देश्यों के लिए 2 डी पोज़ अनुमान
  • प्रत्येक फ्रेम में प्रत्येक व्यक्ति के लिए 3 डी निर्देशांक उत्पन्न करने के लिए 3 डी पोज आकलन मॉड्यूल
  • मूल्यांकन और दृश्य मॉड्यूल

एसएम स्टूडियो विकास की प्रक्रिया को सुविधाजनक बनाने, अमेज़ॅन एस 3 में डेटा तक आसान पहुंच, कम्प्यूट क्षमता की उपलब्धता, सॉफ्टवेयर और पुस्तकालय की उपलब्धता, और एमएल अनुप्रयोगों के लिए एक एकीकृत विकास अनुभव (आईडीई) सहित कई सुविधाएँ प्रदान करता है।

सबसे पहले, हम S3 बाल्टी से वीडियो डेटा पढ़ते हैं और फ्रेम-स्तरीय विकास के लिए एक पोर्टेबल नेटवर्क ग्राफिक्स (PNG) प्रारूप में 2D फ्रेम निकाले। हमने फ्रेम में पाए गए प्रत्येक व्यक्ति के बाउंडिंग बॉक्स को उत्पन्न करने के लिए YOLOv3 ऑब्जेक्ट डिटेक्शन का उपयोग किया। अधिक जानकारी के लिए, Apache MXNet के साथ CNN- आधारित डिटेक्टरों के लिए बेंचमार्किंग प्रशिक्षण समय देखें.

अगला, हमने मूल्यांकन और विज़ुअलाइज़ेशन के प्रमुख बिंदुओं को उत्पन्न करने के लिए फ़्रेम और संबंधित बाउंडिंग बॉक्स जानकारी को 3 डी पोज़ अनुमान मॉडल में पास किया। हमने फ्रेम में 2 डी पोज आकलन तकनीक लागू की, और हमने विकास और मूल्यांकन के लिए प्रति फ्रेम मुख्य बिंदुओं को उत्पन्न किया। निम्नलिखित अनुभाग 3 डी पाइपलाइन में प्रत्येक मॉड्यूल के विवरण पर चर्चा करते हैं।

डेटा प्रीप्रोसेसिंग

पहला कदम OpenCV के उपयोग से दिए गए वीडियो से फ्रेम निकालना था जैसा कि निम्नलिखित आकृति में दिखाया गया है। हमने क्रमशः समय और फ़्रेम गणना पर नज़र रखने के लिए दो काउंटरों का उपयोग किया, क्योंकि वीडियो को प्रति सेकंड (एफपीएस) दरों पर विभिन्न फ़्रेमों में कैप्चर किया गया था। हम तो के रूप में छवियों के अनुक्रम संग्रहीतvideo_name + second_count + frame_countपीएनजी प्रारूप में।

वस्तु (व्यक्ति) का पता लगाना

हमने फ्रेम में व्यक्तियों का पता लगाने के लिए पास्कल वीओसी डेटासेट पर आधारित YOLOv3 ढोंग किए गए मॉडल को नियोजित किया। अधिक जानकारी के लिए देखें Amazon SageMaker पर Gluon और Apache MXNet के साथ निर्मित कस्टम मॉडल तैनात करना। YOLOv3 एल्गोरिथ्म ने निम्नलिखित एनिमेशन में दिखाए गए बाउंडिंग बॉक्स का उत्पादन किया (मूल चित्र 910 × 512 पिक्सल के आकार के हैं)।

हमने एक CSV फ़ाइल में बाउंडिंग बॉक्स निर्देशांक संग्रहीत किया है, जिसमें पंक्तियों ने फ़्रेम इंडेक्स, बॉक्स जानकारी को एक सूची के रूप में, और उनके आत्मविश्वास स्कोर को इंगित किया है।

2 डी पोज अनुमान

हमने ResNet-18 V1b को प्रीटेंस किए गए पोज अनुमान मॉडल के रूप में चुना है, जो ऑब्जेक्ट डिटेक्शन मॉडल द्वारा बक्सों के आउटपुट के भीतर मानव पोज का अनुमान लगाने के लिए एक टॉप-डाउन रणनीति पर विचार करता है। हम मनुष्यों को शामिल करने के लिए डिटेक्टर कक्षाओं को फिर से सेट करते हैं ताकि गैर-अधिकतम दमन (एनएमएस) प्रक्रिया को तेजी से निष्पादित किया जा सके। सरल पोज नेटवर्क को प्रमुख बिंदुओं के लिए हीटमैप्स की भविष्यवाणी करने के लिए लागू किया गया था (निम्न एनीमेशन में), और हीटमैप्स में उच्चतम मूल्यों को मूल छवियों पर निर्देशांक में मैप किया गया था।

3 डी पोज अनुमान

हमने एक अत्याधुनिक 3 डी पोज अनुमान एल्गोरिदम को नियोजित किया है जिसमें आरजीबी फ्रेम प्रति बहु-व्यक्ति के लिए कैमरा दूरी-जागरूक टॉप-डाउन पद्धति शामिल है जिसे 3DMPPE (मून एट अल।) के रूप में संदर्भित किया गया है। इस एल्गोरिथ्म में दो प्रमुख चरण शामिल थे:

  • रूटनेट - एक फसली फ्रेम में किसी व्यक्ति की जड़ के कैमरा-केंद्रित निर्देशांक का अनुमान लगाता है
  • पोसनेट - फसली छवि में सापेक्ष 3 डी पोज निर्देशांक की भविष्यवाणी करने के लिए एक टॉप-डाउन दृष्टिकोण का उपयोग करता है

अगला, हमने 3D निर्देशांक को मूल स्थान पर वापस लाने के लिए बाउंडिंग बॉक्स जानकारी का उपयोग किया। 3DMPPE ने Human36 और MuCo3D डेटासेट (अधिक जानकारी के लिए, का उपयोग कर प्रशिक्षित दो प्रिन्टेड मॉडल की पेशकश की गीथहब रेपो), जिसमें क्रमशः 17 और 21 प्रमुख बिंदु शामिल हैं, जैसा कि निम्नलिखित एनिमेशन में चित्रित किया गया है। हमने विज़ुअलाइज़ेशन और मूल्यांकन के उद्देश्यों के लिए दो ढके हुए मॉडल द्वारा अनुमानित 3 डी पोज़ निर्देशांक का उपयोग किया।

मूल्यांकन

2 डी और 3 डी पोज आकलन मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमने एक वीडियो में हर फ्रेम के लिए उत्पन्न प्रत्येक संयुक्त के लिए 2 डी पोज (एक्स, वाई) और 3 डी पोज (एक्स, वाई, जेड) का इस्तेमाल किया। डेटासेट के आधार पर विभिन्न महत्वपूर्ण बिंदुओं की संख्या; उदाहरण के लिए, लीड्स स्पोर्ट्स पोज़ डेटासेट (एलएसपी) में 14 शामिल हैं, जबकि एमपीआईआई ह्यूमन पोज़ डेटासेट, जो मानवाधिकारों का आकलन करने के लिए एक अत्याधुनिक मानदंड है, जिसमें ह्यूमन 3.6 एम का जिक्र है, जिसमें 16 प्रमुख बिंदु शामिल हैं। हमने 2 डी और 3 डी पोज अनुमान दोनों के लिए आमतौर पर दो मैट्रिक्स का इस्तेमाल किया, जैसा कि मूल्यांकन पर अगले भाग में बताया गया है। हमारे कार्यान्वयन में, हमारे डिफ़ॉल्ट प्रमुख बिंदु शब्दकोश COCO डिटेक्शन डेटासेट का अनुसरण करते हैं, जिसमें 17 मुख्य बिंदु हैं (निम्न छवि देखें), और आदेश निम्नानुसार परिभाषित किया गया है:

KEY POINTS = {
    0: "nose",
    1: "left_eye",
    2: "right_eye",
    3: "left_ear",
    4: "right_ear",
    5: "left_shoulder",
    6: "right_shoulder",
    7: "left_elbow",
    8: "right_elbow",
    9: "left_wrist",
    10: "right_wrist",
    11: "left_hip",
    12: "right_hip",
    13: "left_knee",
    14: "right_knee",
    15: "left_ankle",
    16: "right_ankle"
}

संयुक्त स्थिति त्रुटि के अनुसार

संयुक्त स्थिति त्रुटि के अनुसार (MPJPE) जमीनी सच्चाई और एक संयुक्त भविष्यवाणी के बीच यूक्लिडियन दूरी है। चूंकि MPJPE त्रुटि या हानि की दूरी को मापता है, और निचले मान अधिक सटीक होने का संकेत देते हैं।

हम निम्नलिखित छद्म कोड का उपयोग करते हैं:

  • G को निरूपित करते हैं ground_truth_joint और प्रीप्रोसेस जी द्वारा:
    • [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
    • शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
  • पी को निरूपित करते हैं predicted_joint matrix, और किसी भी फ्रेम परिणाम नहीं है या unlabeled है, तो एक शून्य वेक्टर डालने से फ्रेम सूचकांक द्वारा जी और पी संरेखित करें
  • G और P के बीच तत्व-वार यूक्लिडियन गणना करें, और D को दूरी मैट्रिक्स को निरूपित करें
  • जगह ले लीi,j 0 के साथ अगर बीi,j
  • प्रति संयुक्त स्थिति का मतलब डी के प्रत्येक स्तंभ का औसत मूल्य हैs,tDi,j ≠ 0

निम्नलिखित आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।

निम्न आंकड़ा वीडियो की प्रति संयुक्त त्रुटि का एक उदाहरण दिखाता है, एक मैट्रिक्स जिसका आयाम m * n है, जहां m एक वीडियो में फ्रेम की संख्या को दर्शाता है और n जोड़ों की संख्या (मुख्य बिंदु) को दर्शाता है। मैट्रिक्स बाईं ओर प्रति संयुक्त स्थिति त्रुटि और दाईं ओर संयुक्त स्थिति त्रुटि के माध्य के हीटमैप का एक उदाहरण दिखाता है।

सही मुख्य बिंदुओं का प्रतिशत

सही मुख्य बिंदुओं (PCK) का प्रतिशत एक पोज़ मूल्यांकन मीट्रिक का प्रतिनिधित्व करता है जहाँ एक पता लगाया गया संयुक्त सही माना जाता है यदि अनुमानित और वास्तविक संयुक्त के बीच की दूरी एक निश्चित सीमा के भीतर है; यह सीमा भिन्न हो सकती है, जो मैट्रिक्स के कुछ भिन्न रूपों की ओर ले जाती है। आमतौर पर तीन विविधताओं का उपयोग किया जाता है:

  • PCKh@0.5, जो कि थ्रेशोल्ड को 0.5 * हेड बोन लिंक के रूप में परिभाषित किया गया है
  • PCK@0.2, जो कि पूर्वानुमानित और वास्तविक जोड़ के बीच की दूरी <0.2 * धड़ व्यास है
  • 150 मिमी एक कठिन सीमा के रूप में

हमारे समाधान में, हमने PCKh@0.5 को हमारे जमीनी सच्चाई XML डेटा के रूप में इस्तेमाल किया जिसमें हेड बाउंडिंग बॉक्स था, जिसका उपयोग हम हेड-बोन लिंक की गणना करने के लिए कर सकते हैं। हमारे ज्ञान का सबसे अच्छा करने के लिए, किसी भी मौजूदा पैकेज में इस मीट्रिक के लिए उपयोग में आसान कार्यान्वयन नहीं है; इसलिए, हमने मीट्रिक इन-हाउस लागू किया।

छद्म कोड

हमने निम्नलिखित छद्म कोड का उपयोग किया है:

  • बता दें कि G ने जमीनी सच्चाई को संयुक्त रूप से दर्शाया है और G:
    • [0,0] (2D) या [0,0,0] (3D) के साथ G में शून्य प्रविष्टियों को प्रतिस्थापित करना
    • शून्य प्रविष्टियों के स्थान को संग्रहीत करने के लिए बूलियन मैट्रिक्स बी का उपयोग करना
  • प्रत्येक फ्रेम के लिए एफi, इसके bbox बी का उपयोग करेंi= (x)मिनट,yमिनट,xमैक्स,yमैक्स) प्रत्येक फ्रेम के संबंधित हेड-बोन लिंक एच की गणना करने के लिएi , जहां एचi= (एक्स)मैक्स-xमिनट)2+ (Yमैक्स-yमिनट)2)½
  • बता दें कि P ने संयुक्त मैट्रिक्स की भविष्यवाणी की है और फ्रेम इंडेक्स द्वारा G और P को संरेखित किया है; यदि कोई फ्रेम गायब है, तो शून्य टेंसर डालें
  • जी और पी के बीच तत्व-वार 2-मानक त्रुटि की गणना करें; E को त्रुटि मैट्रिक्स बताएं, जहां Ei,j=||Gi,j-Pi,j||
  • स्केल की गई मैट्रिक्स S = H * I की गणना करें, जहां मैं E के समान आयाम के साथ एक पहचान मैट्रिक्स का प्रतिनिधित्व करता हूं
  • 0 से विभाजन से बचने के लिए, S की जगह लेंi,j 0.000001 के साथ अगर बीi,j=1
  • गणना की गई त्रुटि मैट्रिक्स एसi,j=Ei,j/Si,j
  • थ्रेशोल्ड = 0.5 के साथ एसई को फ़िल्टर करें, और सी को काउंटर मैट्रिक्स को निरूपित करें, जहां सीi,j= 1 यदि एस.ई.i,j<0.5 और सीi,j= 0 एल्विस
  • गिनें कि C में कितने 1 हैं*,j c as के रूप में और गिनें कि B में कितने 0 हैं*,j के रूप में b⃗
  • PCKh@0.5=mean (ch / b.XNUMX)

छठे चरण में (एस की जगह)i,j0.000001 के साथ अगर बीi,j= 1), हमने 0 के साथ 0.00001 प्रविष्टियों को प्रतिस्थापित करके स्केल की गई त्रुटि मैट्रिक्स के लिए एक जाल स्थापित किया है। किसी भी संख्या को छोटी संख्या से विभाजित करने से एक प्रवर्धित संख्या उत्पन्न होती है। क्योंकि हमने बाद में गलत अनुमानों को फ़िल्टर करने के लिए दहलीज के रूप में 0.5 का उपयोग किया था, अशक्त प्रविष्टियों को सही भविष्यवाणी से बाहर रखा गया था क्योंकि यह बहुत बड़ा था। हमने बाद में बूलियन मैट्रिक्स में न केवल शून्य प्रविष्टियों को गिना। इस तरह, हमने संपूर्ण डेटासेट की अशक्त प्रविष्टियों को भी बाहर कर दिया। हमने इस क्रियान्वयन में एक इंजीनियरिंग ट्रिक का प्रस्ताव किया था, जिसमें ज़मीनी सच्चाई में मौजूद गैर-सूचीबद्ध प्रमुख बिंदुओं से शून्य प्रविष्टियों को फ़िल्टर करने या किसी भी व्यक्ति के साथ फ़्रेम का पता लगाने के लिए नहीं था।

वीडियो संरेखण

हमने एथलीटों से वीडियो डेटा कैप्चर करने के लिए दो अलग-अलग कैमरा कॉन्फ़िगरेशन पर विचार किया, अर्थात् लाइन और बॉक्स सेटअप। लाइन सेटअप में चार कैमरों को एक रेखा के साथ रखा जाता है जबकि बॉक्स सेटअप में एक आयत के प्रत्येक कोने में चार कैमरे होते हैं। कैमरों को लाइन कॉन्फ़िगरेशन में सिंक्रनाइज़ किया गया था और फिर थोड़ा ओवरलैपिंग कैमरा कोणों का उपयोग करते हुए, एक दूसरे से पूर्वनिर्धारित दूरी पर पंक्तिबद्ध किया गया था। लाइन कॉन्फ़िगरेशन में वीडियो संरेखण का उद्देश्य बार-बार और खाली फ़्रेमों को हटाने के लिए लगातार कैमरों को जोड़ने वाले टाइमस्टैम्प की पहचान करना था। हमने ऑप्टिकल फ्लो के ऑब्जेक्ट डिटेक्शन और क्रॉस-सहसंबंध के आधार पर दो दृष्टिकोणों को लागू किया।

ऑब्जेक्ट डिटेक्शन एल्गोरिदम

हमने इस दृष्टिकोण में ऑब्जेक्ट डिटेक्शन परिणामों का उपयोग किया है, जिसमें पिछले चरणों से व्यक्तियों के बाउंडिंग बॉक्स शामिल हैं। ऑब्जेक्ट डिटेक्शन तकनीकों ने प्रत्येक फ्रेम में प्रति व्यक्ति एक संभावना (स्कोर) का उत्पादन किया। इसलिए, एक वीडियो में स्कोर की साजिश रचने से हमें उस फ्रेम को खोजने में सक्षम हुआ जहां पहला व्यक्ति दिखाई दिया या गायब हो गया। बॉक्स कॉन्फ़िगरेशन से संदर्भ फ्रेम प्रत्येक वीडियो से निकाला गया था, और सभी कैमरों को पहले फ्रेम के संदर्भों के आधार पर सिंक्रनाइज़ किया गया था। लाइन कॉन्फ़िगरेशन में, प्रारंभ और समाप्ति टाइमस्टैम्प दोनों को निकाला गया था, और एक नियम-आधारित एल्गोरिथ्म को लगातार वीडियो को जोड़ने और संरेखित करने के लिए लागू किया गया था, जैसा कि निम्नलिखित छवियों में चित्रित किया गया है।

निम्नलिखित आकृति में शीर्ष वीडियो मूल वीडियो को लाइन कॉन्फ़िगरेशन में दिखाते हैं। व्यक्ति का पता लगाने के स्कोर के नीचे। अगली पंक्तियों में स्कोर पर लागू 0.75 की दहलीज दिखाई देती है, और उचित शुरुआत और अंत टाइमस्टैम्प निकाले जाते हैं। नीचे की पंक्ति आगे के विश्लेषण के लिए संरेखित वीडियो दिखाती है।

पल पल

हमने स्नैप (एमओएस) के क्षण को पेश किया - एक प्रसिद्ध संरेखण दृष्टिकोण - जो इंगित करता है कि जब कोई घटना या खेल शुरू होता है। जब कोई एथलीट प्रवेश करता है या दृश्य छोड़ता है तो हम फ्रेम संख्या निर्धारित करना चाहते थे। आमतौर पर, रनिंग फील्ड पर शुरुआत से पहले और स्नैप खत्म होने के बाद अपेक्षाकृत कम मूवमेंट होता है, जबकि एथलीट के दौड़ने पर अपेक्षाकृत काफी मूवमेंट होता है। इसलिए, सहज रूप से, हम फ्रेम से पहले और बाद में वीडियो के आंदोलन में अपेक्षाकृत बड़े अंतर के साथ वीडियो फ्रेम ढूंढकर एमओएस फ्रेम पा सकते हैं। यह अंत करने के लिए, हमने एमओएस का अनुमान लगाने के लिए घनत्व ऑप्टिकल प्रवाह, वीडियो में आंदोलन का एक मानक उपाय का उपयोग किया। सबसे पहले, एक वीडियो दिया, हमने लगातार दो फ्रेमों के लिए ऑप्टिकल प्रवाह की गणना की। निम्नलिखित वीडियो क्षैतिज अक्ष पर घने ऑप्टिकल प्रवाह का दृश्य प्रस्तुत करते हैं।

हमने फिर दो लगातार फ्रेम के ऑप्टिकल प्रवाह के बीच क्रॉस-सहसंबंध को मापा, क्योंकि क्रॉस-सहसंबंध उनके बीच के अंतर को मापता है। प्रत्येक कोण के कैमरा-कैप्चर किए गए वीडियो के लिए, हमने इसके MOS को खोजने के लिए एल्गोरिथ्म को दोहराया। अंत में, हमने विभिन्न कोणों से वीडियो संरेखित करने के लिए मुख्य फ्रेम के रूप में MOS फ्रेम का उपयोग किया। निम्न वीडियो इन चरणों का विवरण देता है।

निष्कर्ष

इस पोस्ट में प्रदर्शित कार्य का तकनीकी उद्देश्य 3 डी वीडियो का उपयोग करके 2 डी पोज अनुमान समन्वय का उत्पादन करने वाला एक गहन-शिक्षण आधारित समाधान विकसित करना था। हमने 3D बहु-व्यक्ति मुद्रा अनुमान प्राप्त करने के लिए एक टॉप-डाउन दृष्टिकोण के साथ एक कैमरा दूरी-जागरूक तकनीक को नियोजित किया। इसके अलावा, वस्तु पहचान, क्रॉस-सहसंबंध और ऑप्टिकल प्रवाह एल्गोरिदम का उपयोग करते हुए, हमने विभिन्न कोणों से कैप्चर किए गए वीडियो को संरेखित किया।

इस कार्य ने कोचों को समय के साथ बायोमैकेनिक्स मेट्रिक्स जैसे वेग को मापने के लिए और मात्रात्मक और गुणात्मक तरीकों का उपयोग करके एथलीटों के प्रदर्शन की निगरानी करने के लिए 3 डी पोज़ अनुमानों का विश्लेषण करने में सक्षम बनाया है।

इस पोस्ट ने वास्तविक दुनिया के परिदृश्यों में 3 डी पोज़ निकालने के लिए एक सरलीकृत प्रक्रिया का प्रदर्शन किया, जिसे तैराकी या टीम के खेल जैसे अन्य खेलों में कोचिंग के लिए बढ़ाया जा सकता है।

यदि आप अपने उत्पादों और सेवाओं में एमएल के उपयोग को तेज करने में मदद करना चाहते हैं, तो कृपया संपर्क करें अमेज़न एमएल सॉल्यूशंस लैब कार्यक्रम.

संदर्भ

मून, ग्यांगसिक, जू योंग चांग और क्यॉन्ग म्यू ली। "एकल आरजीबी छवि से 3 डी बहु-व्यक्ति मुद्रा अनुमान के लिए कैमरा दूरी-जागरूक टॉप-डाउन दृष्टिकोण।" में कंप्यूटर विजन पर IEEE अंतर्राष्ट्रीय सम्मेलन की कार्यवाही, पीपी। 10133-10142। 2019।


लेखक के बारे में

समन सर्राफ में एक डेटा वैज्ञानिक है अमेज़न एमएल सॉल्यूशंस लैब। उनकी पृष्ठभूमि एप्लाइड मशीन लर्निंग में है जिसमें गहरी शिक्षा, कंप्यूटर दृष्टि और समय श्रृंखला डेटा भविष्यवाणी शामिल है।

अमेरीक कांग इंटेल पर एक एल्गोरिदम इंजीनियर है, जहां वह ओलंपिक खेलों में बायोमेकेनिकल विश्लेषण करने के लिए मशीन लर्निंग और कंप्यूटर विज़न तकनीक विकसित करता है। वह एआई के साथ मानव शरीर विज्ञान की मात्रा निर्धारित करने में रुचि रखते हैं, खासकर एक खेल प्रदर्शन के संदर्भ में।

एश्टन ईटन इंटेल में एक उत्पाद विकास इंजीनियर है, जहां वह खेल प्रदर्शन को आगे बढ़ाने के उद्देश्य से डिजाइन और परीक्षण प्रौद्योगिकियों में मदद करता है। वह ग्राहकों और इंजीनियरिंग टीम के साथ काम करता है ताकि ग्राहकों की जरूरतों को पूरा करने वाले उत्पादों की पहचान और विकास किया जा सके। वह मानव प्रदर्शन के लिए विज्ञान और प्रौद्योगिकी को लागू करने में रुचि रखते हैं।

जोनाथन ली इंटेल में खेल प्रदर्शन प्रौद्योगिकी, ओलंपिक प्रौद्योगिकी समूह के निदेशक हैं। उन्होंने यूसीएलए में एक अंडरग्रेजुएट के रूप में स्वास्थ्य के लिए मशीन लर्निंग के आवेदन का अध्ययन किया और ऑक्सफोर्ड विश्वविद्यालय में अपने स्नातक कार्य के दौरान। उनके कैरियर ने स्वास्थ्य और मानव प्रदर्शन के लिए एल्गोरिदम और सेंसर विकास पर ध्यान केंद्रित किया है। वह अब इंटेल में 3 डी एथलीट ट्रैकिंग परियोजना का नेतृत्व करता है।

नेल्सन लेउंग इंटेल में खेल प्रदर्शन सीओई में प्लेटफ़ॉर्म आर्किटेक्ट है, जहां वह एथलेटिक प्रदर्शन को बढ़ाने वाले अत्याधुनिक उत्पादों के लिए एंड-टू-एंड आर्किटेक्चर को परिभाषित करता है। वह विभिन्न इंटेल भागीदारों के पैमाने पर इन मशीन लर्निंग समाधानों के कार्यान्वयन, परिनियोजन और उत्पादीकरण का नेतृत्व करता है।

सुचित्रा सत्यनारायण में एक प्रबंधक है अमेज़न एमएल सॉल्यूशंस लैब, जहां वह विभिन्न उद्योग ऊर्ध्वाधरों में AWS के ग्राहकों को अपने AI और क्लाउड अपनाने में तेजी लाने में मदद करता है। वह सिंगापुर के नानयांग टेक्नोलॉजिकल यूनिवर्सिटी से कंप्यूटर विज़न में पीएचडी रखती हैं।

वेनजेन झू के साथ एक डेटा वैज्ञानिक है अमेज़न एमएल समाधान लैब Amazon Web Services पर टीम। वह AWS ग्राहकों के लिए उद्योगों में विभिन्न समस्याओं को हल करने के लिए मशीन लर्निंग और डीप लर्निंग का लाभ उठाती है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/estimating-3d-pose-for-athlete-tracking-using-2d-videos-and-amazon-sagemaker-studio/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग