यह ब्लॉग पोस्ट FedML के चाओयांग हे और सलमान एवेस्टीमर के साथ सह-लिखा गया है।
रीयल-वर्ल्ड हेल्थकेयर और लाइफ साइंसेज (एचसीएलएस) डेटा का विश्लेषण करने से कई व्यावहारिक चुनौतियां सामने आती हैं, जैसे कि वितरित डेटा साइलो, दुर्लभ घटनाओं के लिए एक ही साइट पर पर्याप्त डेटा की कमी, नियामक दिशानिर्देश जो डेटा साझा करने पर रोक लगाते हैं, बुनियादी ढांचे की आवश्यकता और बनाने में खर्च की गई लागत एक केंद्रीकृत डेटा भंडार। क्योंकि वे अत्यधिक विनियमित डोमेन में हैं, एचसीएलएस भागीदार और ग्राहक बड़े पैमाने पर, वितरित और संवेदनशील डेटा का प्रबंधन और विश्लेषण करने के लिए गोपनीयता-संरक्षण तंत्र की तलाश करते हैं।
इन चुनौतियों को कम करने के लिए, हम AWS पर ओपन-सोर्स FedML पर आधारित एक फ़ेडरेटेड लर्निंग (FL) फ्रेमवर्क का प्रस्ताव करते हैं, जो संवेदनशील HCLS डेटा का विश्लेषण करने में सक्षम बनाता है। इसमें विभिन्न साइटों पर स्थानीय रूप से रखे गए वितरित स्वास्थ्य डेटा से एक वैश्विक मशीन लर्निंग (एमएल) मॉडल का प्रशिक्षण शामिल है। मॉडल प्रशिक्षण प्रक्रिया के दौरान साइटों पर या केंद्रीकृत सर्वर के साथ डेटा को स्थानांतरित करने या साझा करने की आवश्यकता नहीं होती है।
क्लाउड पर FL ढांचे को तैनात करने में कई चुनौतियाँ हैं। एकाधिक खातों या वर्चुअल प्राइवेट क्लाउड (वीपीसी) का समर्थन करने के लिए क्लाइंट-सर्वर इंफ्रास्ट्रक्चर को स्वचालित करने के लिए वीपीसी पियरिंग और वीपीसी और उदाहरणों में कुशल संचार की आवश्यकता होती है। एक उत्पादन वर्कलोड में, ग्राहकों को जोड़ने और हटाने के लिए एक स्थिर परिनियोजन पाइपलाइन की आवश्यकता होती है और बिना अधिक ओवरहेड के उनके कॉन्फ़िगरेशन को अपडेट करते हैं। इसके अलावा, एक विषम सेटअप में, ग्राहकों की गणना, नेटवर्क और भंडारण के लिए अलग-अलग आवश्यकताएं हो सकती हैं। इस विकेन्द्रीकृत वास्तुकला में, ग्राहकों के बीच लॉगिंग और डिबगिंग त्रुटियां मुश्किल हो सकती हैं। अंत में, समग्र मॉडल मापदंडों के लिए इष्टतम दृष्टिकोण का निर्धारण करना, मॉडल प्रदर्शन को बनाए रखना, डेटा गोपनीयता सुनिश्चित करना और संचार दक्षता में सुधार करना एक कठिन कार्य है। इस पोस्ट में, हम एक एचसीएलएस समाधान को होस्ट करने वाले संघबद्ध शिक्षण संचालन (एफएलओपीएस) टेम्पलेट प्रदान करके इन चुनौतियों का समाधान करते हैं। समाधान मामलों का उपयोग करने के लिए अज्ञेयवादी है, जिसका अर्थ है कि आप मॉडल और डेटा को बदलकर इसे अपने उपयोग के मामलों के लिए अनुकूलित कर सकते हैं।
इस दो-भाग की श्रृंखला में, हम प्रदर्शित करते हैं कि आप AWS पर क्लाउड-आधारित FL फ्रेमवर्क को कैसे परिनियोजित कर सकते हैं। में पहिला पद, हमने FL अवधारणाओं और FedML ढांचे का वर्णन किया। इस दूसरे भाग में, हम वास्तविक दुनिया के डेटासेट eICU से एक प्रूफ-ऑफ़-कॉन्सेप्ट हेल्थकेयर और लाइफ साइंसेज यूज़ केस पेश करते हैं। इस डेटासेट में 200 से अधिक अस्पतालों से एकत्रित एक बहु-केंद्र क्रिटिकल केयर डेटाबेस शामिल है, जो हमारे FL प्रयोगों का परीक्षण करने के लिए इसे आदर्श बनाता है।
एचसीएलएस उपयोग मामला
प्रदर्शन के उद्देश्य से, हमने गंभीर रूप से बीमार रोगियों के प्रबंधन के लिए सार्वजनिक रूप से उपलब्ध डेटासेट पर एक FL मॉडल बनाया। हमने इस्तेमाल किया eICU सहयोगी अनुसंधान डेटाबेस, एक बहु-केंद्र गहन देखभाल इकाई (ICU) डेटाबेस, जिसमें 200,859 अद्वितीय रोगियों के लिए 139,367 रोगी इकाई शामिल है। उन्हें 335-208 के बीच पूरे अमेरिका में स्थित 2014 अस्पतालों में 2015 इकाइयों में से एक में भर्ती कराया गया था। डेटा की अंतर्निहित विषमता और वितरित प्रकृति के कारण, यह इस FL ढांचे का परीक्षण करने के लिए एक आदर्श वास्तविक दुनिया का उदाहरण प्रदान करता है। डेटासेट में प्रयोगशाला माप, महत्वपूर्ण संकेत, देखभाल योजना की जानकारी, दवाएं, रोगी इतिहास, प्रवेश निदान, संरचित समस्या सूची से समय-मुद्रित निदान और इसी तरह चुने गए उपचार शामिल हैं। यह CSV फ़ाइलों के एक सेट के रूप में उपलब्ध है, जिसे किसी भी रिलेशनल डेटाबेस सिस्टम में लोड किया जा सकता है। यूएस हेल्थ इंश्योरेंस पोर्टेबिलिटी एंड एकाउंटेबिलिटी एक्ट (HIPAA) की नियामक आवश्यकताओं को पूरा करने के लिए तालिकाओं की पहचान की जाती है। डेटा को PhysioNet रिपॉजिटरी के माध्यम से एक्सेस किया जा सकता है, और डेटा एक्सेस प्रक्रिया का विवरण यहां [1] पाया जा सकता है।
ईआईसीयू डेटा एमएल एल्गोरिदम, निर्णय समर्थन उपकरण विकसित करने और नैदानिक अनुसंधान को आगे बढ़ाने के लिए आदर्श है। बेंचमार्क विश्लेषण के लिए, हमने मरीजों की अस्पताल में मृत्यु दर [2] की भविष्यवाणी करने के कार्य पर विचार किया। हमने इसे बाइनरी वर्गीकरण कार्य के रूप में परिभाषित किया है, जहां प्रत्येक डेटा नमूना 1-घंटे की अवधि तक फैला हुआ है। इस कार्य के लिए एक समूह बनाने के लिए, हमने रोगी के रिकॉर्ड में अस्पताल से छुट्टी की स्थिति और कम से कम 48 घंटे रहने की अवधि वाले रोगियों का चयन किया, क्योंकि हम पहले 24 और 48 घंटों के दौरान मृत्यु दर की भविष्यवाणी पर ध्यान केंद्रित करते हैं। इसने 30,680 रिकॉर्ड वाले 1,164,966 रोगियों का एक समूह बनाया। हमने मृत्यु दर की भविष्यवाणी के लिए डोमेन-विशिष्ट डेटा प्रीप्रोसेसिंग और [3] में वर्णित विधियों को अपनाया। इसके परिणामस्वरूप एक समग्र डेटासेट में प्रति मरीज प्रति रिकॉर्ड कई कॉलम शामिल हैं, जैसा कि निम्नलिखित आंकड़े में दिखाया गया है। निम्न तालिका स्तंभों में समय (5 घंटे से अधिक 48 अंतराल) और पंक्तियों में महत्वपूर्ण संकेत टिप्पणियों के साथ सारणीबद्ध शैली इंटरफ़ेस में रोगी रिकॉर्ड प्रदान करती है। प्रत्येक पंक्ति एक शारीरिक चर का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ रोगी के लिए 48 घंटे की समय खिड़की पर दर्ज किए गए मूल्य का प्रतिनिधित्व करता है।
फिजियोलॉजिकल पैरामीटर | चार्ट_टाइम_0 | चार्ट_टाइम_1 | चार्ट_टाइम_2 | चार्ट_टाइम_3 | चार्ट_टाइम_4 |
ग्लासगो कोमा स्कोर आंखें | 4 | 4 | 4 | 4 | 4 |
FiO2 | 15 | 15 | 15 | 15 | 15 |
ग्लासगो कोमा स्कोर आंखें | 15 | 15 | 15 | 15 | 15 |
हृदय की दर | 101 | 100 | 98 | 99 | 94 |
इनवेसिव बीपी डायस्टोलिक | 73 | 68 | 60 | 64 | 61 |
इनवेसिव बीपी सिस्टोलिक | 124 | 122 | 111 | 105 | 116 |
माध्य धमनी दाब (mmHg) | 77 | 77 | 77 | 77 | 77 |
ग्लासगो कोमा स्कोर मोटर | 6 | 6 | 6 | 6 | 6 |
02 संतृप्ति | 97 | 97 | 97 | 97 | 97 |
श्वसन दर | 19 | 19 | 19 | 19 | 19 |
तापमान (सी) | 36 | 36 | 36 | 36 | 36 |
ग्लासगो कोमा स्कोर वर्बल | 5 | 5 | 5 | 5 | 5 |
प्रवेश ऊंचाई | 162 | 162 | 162 | 162 | 162 |
android | 96 | 96 | 96 | 96 | 96 |
उम्र | 72 | 72 | 72 | 72 | 72 |
apachemissiondx | 143 | 143 | 143 | 143 | 143 |
जातीयता | 3 | 3 | 3 | 3 | 3 |
लिंग | 1 | 1 | 1 | 1 | 1 |
ग्लूकोज | 128 | 128 | 128 | 128 | 128 |
yahoo | -436 | -436 | -436 | -436 | -436 |
अस्पताल से छुट्टी की स्थिति | 0 | 0 | 0 | 0 | 0 |
yahoo | -6 | -1 | 0 | 1 | 2 |
pH | 7 | 7 | 7 | 7 | 7 |
Patientunitstaid | 2918620 | 2918620 | 2918620 | 2918620 | 2918620 |
यूनिटडिस्चार्जऑफसेट | 1466 | 1466 | 1466 | 1466 | 1466 |
इकाईनिर्वहनस्थिति | 0 | 0 | 0 | 0 | 0 |
हमने संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं का उपयोग किया और प्रत्येक रोगी के सभी रिकॉर्डों को एकल-रिकॉर्ड समय श्रृंखला में समतल करने के लिए समूहीकृत किया। सात स्पष्ट विशेषताएं (प्रवेश निदान, जातीयता, लिंग, ग्लासगो कोमा स्कोर कुल, ग्लासगो कोमा स्कोर आंखें, ग्लासगो कोमा स्कोर मोटर, और ग्लासगो कोमा स्कोर वर्बल को एक-हॉट एन्कोडिंग वैक्टर में परिवर्तित किया गया था) में 429 अद्वितीय मूल्य शामिल थे और एक में परिवर्तित किए गए थे। -गर्म एम्बेडिंग। प्रशिक्षण नोड सर्वरों में डेटा रिसाव को रोकने के लिए, हम अस्पताल आईडी द्वारा डेटा को विभाजित करते हैं और एक नोड पर अस्पताल के सभी रिकॉर्ड रखते हैं।
समाधान अवलोकन
निम्नलिखित आरेख AWS पर FedML की बहु-खाता परिनियोजन की संरचना को दर्शाता है। इसमें दो ग्राहक (प्रतिभागी ए और प्रतिभागी बी) और एक मॉडल एग्रीगेटर शामिल हैं।
वास्तुकला में तीन अलग-अलग होते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (Amazon EC2) उदाहरण अपने स्वयं के AWS खाते में चल रहे हैं। पहले दो उदाहरणों में से प्रत्येक ग्राहक के स्वामित्व में है, और तीसरा उदाहरण मॉडल एग्रीगेटर के स्वामित्व में है। ग्राहकों और एग्रीगेटर के बीच एमएल मॉडल और वजन का आदान-प्रदान करने की अनुमति देने के लिए खाते वीपीसी पीयरिंग के माध्यम से जुड़े हुए हैं। जी.आर.पीसी. मॉडल एग्रीगेटर और क्लाइंट के बीच संचार के लिए संचार बैकएंड के रूप में उपयोग किया जाता है। हमने एक सर्वर और दो क्लाइंट नोड्स के साथ एकल खाता-आधारित वितरित कंप्यूटिंग सेटअप का परीक्षण किया। इनमें से प्रत्येक उदाहरण एक कस्टम Amazon EC2 AMI का उपयोग करके FedML निर्भरता के अनुसार स्थापित किए गए थे FedML.ai स्थापना मार्गदर्शिका.
वीपीसी पीयरिंग सेट अप करें
आपके द्वारा उनके संबंधित AWS खातों में तीन उदाहरण लॉन्च करने के बाद, आप खातों के बीच VPC पीयरिंग स्थापित करते हैं अमेज़ॅन वर्चुअल प्राइवेट क्लाउड (अमेज़न वीपीसी)। वीपीसी पीयरिंग कनेक्शन स्थापित करने के लिए, पहले दूसरे वीपीसी के साथ पीयर करने का अनुरोध करें। आप अपने खाते में किसी अन्य VPC के साथ या किसी भिन्न AWS खाते में VPC के साथ VPC पीयरिंग कनेक्शन का अनुरोध कर सकते हैं। अनुरोध को सक्रिय करने के लिए, वीपीसी के मालिक को अनुरोध स्वीकार करना होगा। इस प्रदर्शन के प्रयोजन के लिए, हम विभिन्न खातों में लेकिन एक ही क्षेत्र में वीपीसी के बीच पीयरिंग कनेक्शन स्थापित करते हैं। वीपीसी पीयरिंग के अन्य विन्यासों के लिए, देखें वीपीसी पीयरिंग कनेक्शन बनाएं.
शुरू करने से पहले, सुनिश्चित करें कि आपके पास देखने के लिए VPC की AWS खाता संख्या और VPC आईडी है।
वीपीसी पीयरिंग कनेक्शन का अनुरोध करें
VPC पीयरिंग कनेक्शन बनाने के लिए, निम्नलिखित चरणों को पूरा करें:
- अमेज़ॅन वीपीसी कंसोल पर, नेविगेशन फलक में, चुनें सहकर्मी कनेक्शन.
- चुनें पीयरिंग कनेक्शन बनाएं.
- के लिए पीयरिंग कनेक्शन नाम टैग, आप वैकल्पिक रूप से अपने VPC पीयरिंग कनेक्शन को नाम दे सकते हैं। ऐसा करने से नाम की एक कुंजी और आपके द्वारा निर्दिष्ट मान के साथ एक टैग बन जाता है। यह टैग केवल आपको दिखाई देता है; पीयर वीपीसी के मालिक वीपीसी पीयरिंग कनेक्शन के लिए अपने स्वयं के टैग बना सकते हैं।
- के लिए वीपीसी (अनुरोधकर्ता), पीयरिंग कनेक्शन बनाने के लिए अपने खाते में VPC चुनें।
- के लिए लेखा, चुनें दूसरा खाता.
- के लिए खाता पहचान, स्वीकार करने वाले VPC के स्वामी की AWS खाता आईडी दर्ज करें।
- के लिए वीपीसी (स्वीकारकर्ता), VPC ID दर्ज करें जिससे VPC पीयरिंग कनेक्शन बनाना है।
- पुष्टिकरण संवाद बॉक्स में, चुनें OK.
- चुनें पीयरिंग कनेक्शन बनाएं.
VPC पीयरिंग कनेक्शन स्वीकार करें
जैसा कि पहले उल्लेख किया गया है, वीपीसी पीयरिंग कनेक्शन को वीपीसी के मालिक द्वारा स्वीकार करने की आवश्यकता है जिसे कनेक्शन अनुरोध भेजा गया है। पीयरिंग कनेक्शन अनुरोध को स्वीकार करने के लिए निम्नलिखित चरणों को पूरा करें:
- Amazon VPC कंसोल पर, स्वीकार करने वाले VPC का क्षेत्र चुनने के लिए क्षेत्र चयनकर्ता का उपयोग करें।
- नेविगेशन फलक में, चुनें सहकर्मी कनेक्शन.
- लंबित वीपीसी पीयरिंग कनेक्शन का चयन करें (स्थिति है
pending-acceptance
), और पर क्रियाएँ मेनू, चुनें अनुरोध स्वीकार करें. - पुष्टिकरण संवाद बॉक्स में, चुनें हाँ, स्वीकार करें.
- दूसरे पुष्टि संवाद में, चुनें मेरी रूट टेबल अभी संशोधित करें रूट टेबल पेज पर सीधे जाने के लिए, या चुनें समापन इसे बाद में करने के लिए।
रूट टेबल अपडेट करें
पीयरेड VPC में इंस्टेंस के बीच निजी IPv4 ट्रैफ़िक को सक्षम करने के लिए, दोनों इंस्टेंस के लिए सबनेट से संबद्ध रूट तालिका में एक रूट जोड़ें। मार्ग गंतव्य पीयर वीपीसी का सीआईडीआर ब्लॉक (या सीआईडीआर ब्लॉक का हिस्सा) है, और लक्ष्य वीपीसी पीयरिंग कनेक्शन की आईडी है। अधिक जानकारी के लिए देखें रूट टेबल कॉन्फ़िगर करें.
पीयर VPC समूहों को संदर्भित करने के लिए अपने सुरक्षा समूहों को अपडेट करें
पीयरेड VPC में सुरक्षा समूहों को संदर्भित करने के लिए अपने VPC सुरक्षा समूहों के लिए इनबाउंड या आउटबाउंड नियम अपडेट करें। यह ट्रैफ़िक को पीयर्ड वीपीसी में संदर्भित सुरक्षा समूह से जुड़े उदाहरणों में प्रवाहित करने की अनुमति देता है। सुरक्षा समूह स्थापित करने के बारे में अधिक जानकारी के लिए देखें सहकर्मी सुरक्षा समूहों को संदर्भित करने के लिए अपने सुरक्षा समूहों को अपडेट करें.
फेडएमएल को कॉन्फ़िगर करें
आपके पास तीन EC2 उदाहरण चलने के बाद, उनमें से प्रत्येक से कनेक्ट करें और निम्न चरणों का पालन करें:
- क्लोन किया गया फेडएमएल रिपॉजिटरी.
- कॉन्फ़िगरेशन फ़ाइल में अपने नेटवर्क के बारे में टोपोलॉजी डेटा प्रदान करें
grpc_ipconfig.csv
.
यह फ़ाइल यहां पाई जा सकती है FedML/fedml_experiments/distributed/fedavg
FedML रिपॉजिटरी में। फ़ाइल में सर्वर और क्लाइंट और उनके नामित नोड मैपिंग के बारे में डेटा शामिल है, जैसे कि FL सर्वर - नोड 0, FL क्लाइंट 1 - नोड 1, और FL क्लाइंट 2 - नोड2।
- GPU मैपिंग कॉन्फ़िग फ़ाइल को परिभाषित करें।
यह फ़ाइल यहां पाई जा सकती है FedML/fedml_experiments/distributed/fedavg
FedML रिपॉजिटरी में। फ़ाइल gpu_mapping.yaml
संबंधित GPU के लिए क्लाइंट सर्वर मैपिंग के लिए कॉन्फ़िगरेशन डेटा शामिल है, जैसा कि निम्नलिखित स्निपेट में दिखाया गया है।
इन कॉन्फ़िगरेशन को परिभाषित करने के बाद, आप क्लाइंट चलाने के लिए तैयार हैं। ध्यान दें कि सर्वर को किक करने से पहले क्लाइंट को चलाना चाहिए। ऐसा करने से पहले, आइए प्रयोगों के लिए डेटा लोडर सेट अप करें।
EICU के लिए FedML को अनुकूलित करें
EICU डेटासेट के लिए FedML रिपॉजिटरी को अनुकूलित करने के लिए, डेटा और डेटा लोडर में निम्नलिखित परिवर्तन करें।
जानकारी
पूर्व-असाइन किए गए डेटा फ़ोल्डर में डेटा जोड़ें, जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है। आप डेटा को अपनी पसंद के किसी भी फ़ोल्डर में रख सकते हैं, जब तक कि प्रशिक्षण स्क्रिप्ट में पथ को लगातार संदर्भित किया जाता है और एक्सेस सक्षम है। वास्तविक दुनिया के एचसीएलएस परिदृश्य का पालन करने के लिए, जहां स्थानीय डेटा साइटों पर साझा नहीं किया जाता है, डेटा को विभाजित और नमूना करें ताकि दो ग्राहकों में अस्पताल आईडी का कोई ओवरलैप न हो। यह सुनिश्चित करता है कि अस्पताल का डेटा उसके अपने सर्वर पर होस्ट किया गया है। हमने प्रत्येक ग्राहक के भीतर डेटा को ट्रेन/परीक्षण सेट में विभाजित करने के लिए समान बाधा भी लागू की। प्रशिक्षण में लगभग 1 नमूनों और परीक्षण में 10 नमूनों के साथ ग्राहकों के प्रत्येक ट्रेन/परीक्षण सेट में सकारात्मक से नकारात्मक लेबल का अनुपात 27,000:3,000 था। हम भारित हानि समारोह के साथ मॉडल प्रशिक्षण में डेटा असंतुलन को संभालते हैं।
डेटा लोडर
प्रत्येक FedML क्लाइंट डेटा को लोड करता है और GPU पर कुशल प्रशिक्षण के लिए इसे PyTorch टेन्सर में परिवर्तित करता है। में eICU डेटा के लिए एक फ़ोल्डर जोड़ने के लिए मौजूदा FedML नामकरण का विस्तार करें data_processing
फ़ोल्डर.
निम्न कोड स्निपेट डेटा स्रोत से डेटा लोड करता है। यह डेटा को प्रीप्रोसेस करता है और इसके माध्यम से एक बार में एक आइटम लौटाता है __getitem__
समारोह.
एक समय में एक डेटा बिंदु के साथ एमएल मॉडल का प्रशिक्षण थकाऊ और समय लेने वाला है। मॉडल प्रशिक्षण आमतौर पर प्रत्येक क्लाइंट पर डेटा बिंदुओं के एक बैच पर किया जाता है। इसे लागू करने के लिए, डेटा लोडर में data_loader.py
स्क्रिप्ट NumPy सरणियों को टार्च टेंसर में परिवर्तित करती है, जैसा कि निम्नलिखित कोड स्निपेट में दिखाया गया है। ध्यान दें कि FedML प्रदान करता है dataset.py
और data_loader.py
संरचित और असंरचित डेटा दोनों के लिए स्क्रिप्ट जिनका उपयोग आप डेटा-विशिष्ट परिवर्तनों के लिए कर सकते हैं, जैसा कि किसी भी PyTorch प्रोजेक्ट में होता है।
डेटा लोडर को प्रशिक्षण स्क्रिप्ट में आयात करें
आपके द्वारा डेटा लोडर बनाने के बाद, इसे ML मॉडल प्रशिक्षण के लिए FedML कोड में आयात करें। किसी भी अन्य डेटासेट (उदाहरण के लिए, CIFAR-10 और CIFAR-100) की तरह, eICU डेटा को इसमें लोड करें main_fedavg.py
रास्ते में स्क्रिप्ट FedML/fedml_experiments/distributed/fedavg/
. यहाँ, हमने फ़ेडरेटेड औसत का उपयोग किया (fedavg
) एकत्रीकरण समारोह। आप सेट अप करने के लिए एक समान विधि का पालन कर सकते हैं main
फ़ाइल किसी अन्य एकत्रीकरण समारोह के लिए।
हम निम्नलिखित कोड के साथ eICU डेटा के लिए डेटा लोडर फ़ंक्शन को कॉल करते हैं:
मॉडल को परिभाषित कीजिए
FedML विभिन्न डेटा प्रकारों, जैसे सारणीबद्ध, पाठ, छवि, ग्राफ़ और इंटरनेट ऑफ़ थिंग्स (IoT) डेटा के लिए कई आउट-ऑफ़-द-बॉक्स डीप लर्निंग एल्गोरिदम का समर्थन करता है। ईआईसीयू के लिए विशिष्ट मॉडल को डेटासेट के आधार पर परिभाषित इनपुट और आउटपुट आयामों के साथ लोड करें। अवधारणा के विकास के इस प्रमाण के लिए, हमने डिफ़ॉल्ट कॉन्फ़िगरेशन वाले रोगियों की मृत्यु दर को प्रशिक्षित करने और भविष्यवाणी करने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग किया। निम्नलिखित कोड स्निपेट हमारे द्वारा किए गए अपडेट दिखाता है main_fedavg.py
लिखी हुई कहानी। ध्यान दें कि आप FedML के साथ कस्टम PyTorch मॉडल का भी उपयोग कर सकते हैं और इसे इसमें आयात कर सकते हैं main_fedavg.py
लिपियों.
AWS पर FedML प्रशिक्षण चलाना और उसकी निगरानी करना
निम्नलिखित वीडियो दिखाता है कि प्रत्येक क्लाइंट में प्रशिक्षण प्रक्रिया आरंभ की जा रही है। सर्वर के लिए दोनों क्लाइंट सूचीबद्ध होने के बाद, सर्वर प्रशिक्षण प्रक्रिया बनाएं जो मॉडल के संघीय एकत्रीकरण को निष्पादित करती है।
FL सर्वर और क्लाइंट को कॉन्फ़िगर करने के लिए, निम्न चरणों को पूरा करें:
- क्लाइंट 1 और क्लाइंट 2 चलाएँ।
क्लाइंट को चलाने के लिए, इसके संबंधित नोड आईडी के साथ निम्न आदेश दर्ज करें। उदाहरण के लिए, क्लाइंट 1 को नोड आईडी 1 के साथ चलाने के लिए, कमांड लाइन से चलाएँ:
- दोनों क्लाइंट इंस्टेंस शुरू होने के बाद, उसी कमांड का उपयोग करके सर्वर इंस्टेंस शुरू करें और आपके कॉन्फ़िगरेशन के अनुसार उपयुक्त नोड आईडी
grpc_ipconfig.csv file
. आप क्लाइंट इंस्टेंसेस से मॉडल वेट को सर्वर पर जाते हुए देख सकते हैं।
- हम 50 युगों के लिए FL मॉडल को प्रशिक्षित करते हैं। जैसा कि आप नीचे दिए गए वीडियो में देख सकते हैं, वज़न को नोड 0, 1 और 2 के बीच स्थानांतरित किया जाता है, यह दर्शाता है कि प्रशिक्षण संघबद्ध तरीके से अपेक्षित रूप से आगे बढ़ रहा है।
- अंत में, क्लस्टर में विभिन्न नोड्स में FL मॉडल प्रशिक्षण प्रगति की निगरानी और ट्रैक करें वजन और पक्षपात (wandb) टूल, जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है। कृपया सूचीबद्ध चरणों का पालन करें यहाँ उत्पन्न करें इस समाधान के लिए वैंडब स्थापित करने और निगरानी स्थापित करने के लिए।
FedML का उपयोग करके AWS पर FL का शुरू से अंत तक प्रदर्शन प्रदान करने के लिए निम्न वीडियो इन सभी चरणों को कैप्चर करता है:
निष्कर्ष
इस पोस्ट में, हमने दिखाया कि आप AWS पर ओपन-सोर्स FedML पर आधारित FL फ्रेमवर्क को कैसे डिप्लॉय कर सकते हैं। यह आपको वितरित डेटा पर एक एमएल मॉडल को साझा करने या स्थानांतरित करने की आवश्यकता के बिना प्रशिक्षित करने की अनुमति देता है। हम एक मल्टी-अकाउंट आर्किटेक्चर स्थापित करते हैं, जहां वास्तविक दुनिया के परिदृश्य में, अस्पताल या स्वास्थ्य सेवा संगठन डेटा गवर्नेंस को बनाए रखते हुए सहयोगी शिक्षा से लाभ उठाने के लिए पारिस्थितिकी तंत्र में शामिल हो सकते हैं। इस परिनियोजन का परीक्षण करने के लिए हमने बहु-अस्पताल ईआईसीयू डेटासेट का उपयोग किया। यह ढांचा अन्य उपयोग मामलों और डोमेन पर भी लागू किया जा सकता है। हम इंफ्रास्ट्रक्चर के माध्यम से कोड के रूप में परिनियोजन को स्वचालित करके इस कार्य का विस्तार करना जारी रखेंगे (उपयोग करके एडब्ल्यूएस CloudFormation), आगे गोपनीयता-संरक्षण तंत्र को शामिल करना, और FL मॉडल की व्याख्या और निष्पक्षता में सुधार करना।
कृपया पुनः प्रस्तुति की समीक्षा करें: MARS 2022 "पर केंद्रित है"AWS पर प्रबंधित फ़ेडरेटेड लर्निंग: स्वास्थ्य देखभाल के लिए एक केस स्टडी” इस समाधान के विस्तृत पूर्वाभ्यास के लिए।
संदर्भ
[1] पोलार्ड, टॉम जे., एट अल। "ईआईसीयू सहयोगी अनुसंधान डेटाबेस, महत्वपूर्ण देखभाल अनुसंधान के लिए एक स्वतंत्र रूप से उपलब्ध बहु-केंद्र डेटाबेस।" वैज्ञानिक डेटा 5.1 (2018): 1-13।
[2] यिन, एक्स, झू, वाई। और हू, जे।, 2021। गोपनीयता-संरक्षण संघीय शिक्षा का एक व्यापक सर्वेक्षण: एक वर्गीकरण, समीक्षा और भविष्य की दिशा। एसीएम कंप्यूटिंग सर्वेक्षण (सीएसयूआर), 54(6), पीपी। 1-36
[3] शेखालीशाही, सैयदमोस्तफ़ा, वेवेके बलरामन, और वेनेट उस्मानी। "बहु-केंद्र eICU क्रिटिकल केयर डेटासेट पर बेंचमार्किंग मशीन लर्निंग मॉडल।" एक और 15.7 (2020): e0235424।
लेखक के बारे में
विद्या सागर रविपति में Manager है अमेज़न एमएल सॉल्यूशंस लैब, जहां वह बड़े पैमाने पर वितरित प्रणालियों में अपने विशाल अनुभव का लाभ उठाता है और विभिन्न उद्योग कार्यक्षेत्रों में AWS ग्राहकों की मदद करने के लिए मशीन लर्निंग के लिए उनका जुनून उनके AI और क्लाउड अपनाने में तेजी लाता है। पहले, वह अमेज़ॅन में कनेक्टिविटी सर्विसेज में मशीन लर्निंग इंजीनियर थे, जिन्होंने निजीकरण और भविष्य कहनेवाला रखरखाव प्लेटफार्मों का निर्माण करने में मदद की।
ओलिविया चौधरी, PhD, AWS में सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं। वह AWS का लाभ उठाते हुए हेल्थकेयर और लाइफ साइंसेज डोमेन, डिजाइन, विकास और अत्याधुनिक समाधानों में भागीदारों की मदद करती है। उसके पास जीनोमिक्स, हेल्थकेयर एनालिटिक्स, फ़ेडरेटेड लर्निंग और प्राइवेसी-प्रोटेक्टिंग मशीन लर्निंग की पृष्ठभूमि है। काम के बाहर, वह बोर्ड गेम खेलती है, लैंडस्केप पेंट करती है और मंगा इकट्ठा करती है।
वजाहत अजीज AWS में एक प्रिंसिपल मशीन लर्निंग और HPC सॉल्यूशंस आर्किटेक्ट हैं, जहाँ वे हेल्थकेयर और लाइफ साइंसेज के ग्राहकों की मदद करने पर ध्यान केंद्रित करते हैं, जो कि ड्रग डेवलपमेंट जैसे विभिन्न प्रकार के उपयोग के मामलों के लिए अत्याधुनिक ML और HPC समाधान विकसित करने के लिए AWS तकनीकों का लाभ उठाते हैं। क्लिनिकल परीक्षण, और गोपनीयता संरक्षण मशीन लर्निंग। काम से बाहर, वजाहत को प्रकृति की खोज करना, लंबी पैदल यात्रा करना और पढ़ना पसंद है।
दिव्या भार्गवी में डेटा साइंटिस्ट और मीडिया एंड एंटरटेनमेंट वर्टिकल लीड हैं अमेज़न एमएल सॉल्यूशंस लैब, जहां वह मशीन लर्निंग का उपयोग करके AWS ग्राहकों के लिए उच्च-मूल्य वाली व्यावसायिक समस्याओं को हल करती हैं। वह छवि/वीडियो समझ, ज्ञान ग्राफ अनुशंसा प्रणाली, भविष्य कहनेवाला विज्ञापन उपयोग मामलों पर काम करती है।
Uज्ज्वल रतन AWS हेल्थकेयर और लाइफ साइंस बिजनेस यूनिट में AI/ML और डेटा साइंस के लिए अग्रणी है और प्रिंसिपल AI/ML सॉल्यूशन आर्किटेक्ट भी है। वर्षों से, उज्ज्वल स्वास्थ्य सेवा और जीवन विज्ञान उद्योग में एक विचारक नेता रहे हैं, जिन्होंने मशीन लर्निंग को अपनाकर कई ग्लोबल फॉर्च्यून 500 संगठनों को उनके नवाचार लक्ष्यों को प्राप्त करने में मदद की। मेडिकल इमेजिंग, असंरचित क्लिनिकल टेक्स्ट और जीनोमिक्स के विश्लेषण से जुड़े उनके काम ने AWS को ऐसे उत्पाद और सेवाएं बनाने में मदद की है जो अत्यधिक व्यक्तिगत और सटीक लक्षित डायग्नोस्टिक्स और चिकित्सीय प्रदान करते हैं। अपने खाली समय में, वह संगीत सुनना (और बजाना) पसंद करता है और अपने परिवार के साथ अनियोजित सड़क यात्राएं करता है।
चाओयांग हे FedML, Inc. का सह-संस्थापक और CTO है, जो किसी भी पैमाने पर कहीं से भी सामुदायिक भवन खुले और सहयोगी AI के लिए चल रहा स्टार्टअप है। उनका शोध वितरित/संघीय मशीन लर्निंग एल्गोरिदम, सिस्टम और एप्लिकेशन पर केंद्रित है। उन्होंने अपनी पीएच.डी. कंप्यूटर विज्ञान में से दक्षिणी कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स, यूएसए।
सलमान एवेस्टीमर FedML, Inc. के सह-संस्थापक और CEO हैं, जो किसी भी पैमाने पर कहीं से भी खुले और सहयोगी AI के सामुदायिक निर्माण के लिए चलने वाला एक स्टार्टअप है। सलमान एवेस्टाइमर अकादमिक और उद्योग दोनों में 20 से अधिक वर्षों के अनुसंधान एवं विकास नेतृत्व के साथ संघ सीखने में एक विश्व प्रसिद्ध विशेषज्ञ हैं। वह डीन के प्रोफेसर हैं और दक्षिणी कैलिफोर्निया विश्वविद्यालय में भरोसेमंद मशीन लर्निंग पर यूएससी-अमेज़ॅन सेंटर के उद्घाटन निदेशक हैं। वे अमेजॉन में अमेजन स्कॉलर भी रह चुके हैं। वह सूचना प्रौद्योगिकी में अपने गहन योगदान के लिए संयुक्त राज्य अमेरिका के राष्ट्रपति पुरस्कार विजेता और IEEE के फेलो हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/part-2-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 20 साल
- 2018
- 2020
- 2021
- 2022
- 28
- 7
- 9
- a
- About
- ऊपर
- अकादमी
- में तेजी लाने के
- स्वीकार करें
- पहुँच
- पहुँचा
- लेखा
- जवाबदेही
- अकौन्टस(लेखा)
- पाना
- के पार
- अधिनियम
- अनुकूलन
- पता
- स्वीकार किया
- दत्तक
- अपनाने
- दत्तक ग्रहण
- विज्ञापन
- बाद
- एकत्रीकरण
- एग्रीगेटर
- AI
- ऐ / एमएल
- एल्गोरिदम
- सब
- की अनुमति देता है
- वीरांगना
- अमेज़ॅन EC2
- विश्लेषण
- विश्लेषिकी
- विश्लेषण करें
- का विश्लेषण
- और
- एंजेल्स
- अन्य
- कहीं भी
- अनुप्रयोगों
- लागू
- दृष्टिकोण
- उपयुक्त
- स्थापत्य
- जुड़े
- स्वचालित
- उपलब्ध
- पुरस्कार
- एडब्ल्यूएस
- बैकएण्ड
- पृष्ठभूमि
- आधारित
- क्योंकि
- से पहले
- जा रहा है
- नीचे
- बेंचमार्क
- लाभ
- के बीच
- खंड
- ब्लॉग
- मंडल
- बोर्ड खेल
- मुक्केबाज़ी
- BP
- निर्माण
- इमारत
- बनाया गया
- व्यापार
- कैलिफ़ोर्निया
- कॉल
- कब्जा
- कौन
- मामला
- मामले का अध्ययन
- मामलों
- केंद्र
- केंद्रीकृत
- मुख्य कार्यपालक अधिकारी
- चुनौतियों
- परिवर्तन
- बदलना
- चुनाव
- चुनें
- करने के लिए चुना
- कक्षा
- वर्गीकरण
- ग्राहक
- ग्राहकों
- क्लिनिकल
- क्लिनिकल परीक्षण
- बादल
- बादल को गोद लेना
- समूह
- सह-संस्थापक
- कोड
- जत्था
- सहयोगी
- एकत्र
- स्तंभ
- स्तंभ
- कोमा
- संचार
- समुदाय
- सामुदायिक भवन
- पूरा
- व्यापक
- गणना करना
- कंप्यूटर
- कम्प्यूटर साइंस
- कंप्यूटिंग
- संकल्पना
- अवधारणाओं
- विन्यास
- जुडिये
- जुड़ा हुआ
- संबंध
- कनेक्टिविटी
- माना
- कंसोल
- जारी रखने के
- योगदान
- परिवर्तित
- इसी
- लागत
- बनाना
- बनाया
- बनाता है
- बनाना
- महत्वपूर्ण
- सीटीओ
- रिवाज
- ग्राहक
- अनुकूलित
- तिथि
- डेटा प्राप्त करना
- गोपनीय जानकारी का चोरी हो जाना
- डेटा अंक
- गोपनीय आँकड़ा
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटा साझा करना
- डाटाबेस
- विकेन्द्रीकृत
- निर्णय
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- चूक
- दिखाना
- तैनात
- तैनाती
- वर्णित
- डिज़ाइन
- गंतव्य
- विस्तृत
- विवरण
- निर्धारित करने
- विकसित करना
- विकासशील
- विकास
- बातचीत
- विभिन्न
- मुश्किल
- आयाम
- सीधे
- निदेशक
- वितरित
- वितरित अभिकलन
- वितरित प्रणाली
- वितरण
- नहीं करता है
- कर
- डोमेन
- डोमेन
- दवा
- नशीली दवाओं के विकास
- दौरान
- से प्रत्येक
- पूर्व
- पारिस्थितिकी तंत्र
- दक्षता
- कुशल
- सक्षम
- सक्षम
- सक्षम बनाता है
- शुरू से अंत तक
- इंजीनियर
- सुनिश्चित
- सुनिश्चित
- दर्ज
- मनोरंजन
- अवधियों को
- त्रुटियाँ
- स्थापित करना
- ईथर (ईटीएच)
- घटनाओं
- उदाहरण
- मौजूदा
- अपेक्षित
- अनुभव
- विशेषज्ञ
- का पता लगाने
- विस्तार
- आंखें
- निष्पक्षता
- परिवार
- विशेषताएं
- साथी
- आकृति
- पट्टिका
- फ़ाइलें
- अंत में
- प्रथम
- प्रवाह
- फोकस
- ध्यान केंद्रित
- केंद्रित
- का पालन करें
- निम्नलिखित
- धन
- पाया
- ढांचा
- मुक्त
- से
- समारोह
- कार्यों
- आगे
- और भी
- भविष्य
- Games
- लिंग
- जीनोमिक्स
- gif
- वैश्विक
- Go
- लक्ष्यों
- शासन
- GPU
- ग्राफ
- रेखांकन
- समूह
- समूह की
- दिशा निर्देशों
- संभालना
- स्वास्थ्य
- स्वास्थ्य बीमा
- स्वास्थ्य सेवा
- धारित
- मदद
- मदद की
- मदद
- मदद करता है
- यहाँ उत्पन्न करें
- अत्यधिक
- हाइकिंग
- इतिहास
- अस्पताल
- अस्पतालों
- मेजबानी
- घंटे
- कैसे
- एचपीसी
- एचटीएमएल
- HTTPS
- आदर्श
- आईईईई
- की छवि
- इमेजिंग
- असंतुलन
- लागू करने के
- आयात
- में सुधार
- में सुधार लाने
- in
- उद्घाटन
- इंक
- शामिल
- शामिल
- अनुक्रमणिका
- उद्योग
- करें-
- इंफ्रास्ट्रक्चर
- नवोन्मेष
- निवेश
- स्थापित
- उदाहरण
- बीमा
- इंटरफेस
- इंटरनेट
- चीजों की इंटरनेट
- IOT
- IT
- में शामिल होने
- कुंजी
- ज्ञान
- लेबल
- प्रयोगशाला
- रंग
- बड़े पैमाने पर
- लांच
- नेतृत्व
- नेता
- नेतृत्व
- सीख रहा हूँ
- लंबाई
- लीवरेज
- leverages
- लाभ
- जीवन
- जीवन विज्ञान
- जीवन विज्ञान
- लाइन
- सूची
- सूचीबद्ध
- सुनना
- भार
- लोडर
- भार
- स्थानीय
- स्थानीय स्तर पर
- स्थित
- लंबा
- उन
- लॉस एंजिल्स
- बंद
- मशीन
- यंत्र अधिगम
- बनाया गया
- बनाए रखना
- रखरखाव
- बनाना
- बनाता है
- प्रबंधन
- प्रबंधक
- ढंग
- मानचित्रण
- मंगल ग्रह
- साधन
- माप
- मीडिया
- मेडिकल
- चिकित्सीय इमेजिंग
- मिलना
- उल्लेख किया
- तरीका
- तरीकों
- एमआईटी
- कम करना
- ML
- एमएल एल्गोरिदम
- आदर्श
- मॉडल
- मॉनिटर
- निगरानी
- अधिक
- मोटर
- चाल
- चलती
- विभिन्न
- संगीत
- नाम
- प्रकृति
- पथ प्रदर्शन
- आवश्यकता
- जरूरत
- की जरूरत है
- नकारात्मक
- नेटवर्क
- नोड
- नोड्स
- संख्या
- numpy
- ONE
- खुला
- खुला स्रोत
- संचालन
- इष्टतम
- संगठनों
- अन्य
- बाहर
- अपना
- स्वामित्व
- मालिक
- फलक
- पैरामीटर
- भाग
- साथी
- भागीदारों
- पारित कर दिया
- जुनून
- पथ
- रोगी
- रोगियों
- सहकर्मी
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- निजीकरण
- निजीकृत
- पाइपलाइन
- जगह
- योजना
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेल
- कृप्या अ
- बिन्दु
- अंक
- बन गया है
- सकारात्मक
- पद
- व्यावहारिक
- ठीक - ठीक
- भविष्यवाणी करना
- की भविष्यवाणी
- भविष्यवाणी
- वर्तमान
- प्रदर्शन
- अध्यक्षीय
- दबाव
- को रोकने के
- पहले से
- प्रिंसिपल
- एकांत
- निजी
- मुसीबत
- समस्याओं
- प्रक्रिया
- उत्पादन
- उत्पाद
- उत्पाद और सेवाएं
- प्रोफेसर
- प्रगति
- प्रगति
- निषेध
- परियोजना
- प्रमाण
- अवधारणा के सुबूत
- प्रस्ताव
- प्रदान करना
- प्रदान करता है
- प्रदान कर
- सार्वजनिक रूप से
- उद्देश्य
- pytorch
- अनुसंधान और विकास
- बिना सोचे समझे
- दुर्लभ
- मूल्यांकन करें
- अनुपात
- RE
- पढ़ना
- तैयार
- असली दुनिया
- प्राप्त
- सिफारिश
- रिकॉर्ड
- दर्ज
- अभिलेख
- क्षेत्र
- प्रतीपगमन
- विनियमित
- नियामक
- हटाना
- कोष
- का प्रतिनिधित्व करता है
- का अनुरोध
- की आवश्यकता होती है
- आवश्यकता
- आवश्यकताएँ
- की आवश्यकता होती है
- अनुसंधान
- कि
- वापसी
- रिटर्न
- की समीक्षा
- सड़क
- लगभग
- मार्ग
- आरओडब्ल्यू
- नियम
- रन
- दौड़ना
- वही
- स्केल
- विज्ञान
- विज्ञान
- वैज्ञानिक
- लिपियों
- मूल
- दूसरा
- सुरक्षा
- शोध
- चयनित
- स्व
- वरिष्ठ
- संवेदनशील
- कई
- सेवाएँ
- सेट
- सेट
- की स्थापना
- व्यवस्था
- सात
- कई
- Share
- साझा
- बांटने
- दिखाया
- दिखाता है
- हस्ताक्षर
- लक्षण
- समान
- उसी प्रकार
- एक
- साइट
- साइटें
- So
- समाधान
- समाधान ढूंढे
- हल करती है
- स्रोत
- दक्षिण
- फैला
- विशिष्ट
- विभाजित
- स्थिर
- मानक
- प्रारंभ
- शुरू
- स्टार्टअप
- राज्य के-the-कला
- राज्य
- स्थिति
- रहना
- कदम
- भंडारण
- संरचित
- संरचित और असंरचित डेटा
- अध्ययन
- अंदाज
- सबनेट
- ऐसा
- पर्याप्त
- समर्थन
- समर्थन करता है
- सर्वेक्षण
- प्रणाली
- सिस्टम
- तालिका
- टैग
- ले जा
- लक्ष्य
- लक्षित
- कार्य
- वर्गीकरण
- टेक्नोलॉजीज
- टेक्नोलॉजी
- टेम्पलेट
- परीक्षण
- RSI
- लेकिन हाल ही
- चिकित्साविधान
- चीज़ें
- तीसरा
- विचार
- तीन
- यहाँ
- भर
- पहर
- समय श्रृंखला
- बहुत समय लगेगा
- सेवा मेरे
- साधन
- उपकरण
- मशाल
- टॉर्चविजन
- कुल
- ट्रैक
- यातायात
- रेलगाड़ी
- प्रशिक्षण
- का तबादला
- परीक्षण
- भरोसेमंद
- प्रकार
- आम तौर पर
- आधारभूत
- समझ
- अद्वितीय
- इकाई
- यूनाइटेड
- संयुक्त राज्य अमेरिका
- इकाइयों
- विश्वविद्यालय
- दक्षिणी कैलिफोर्निया विश्वविद्यालय
- अपडेट
- अपडेट
- us
- अमेरिका
- उपयोग
- उदाहरण
- मूल्य
- मान
- विविधता
- विभिन्न
- व्यापक
- कार्यक्षेत्र
- के माध्यम से
- वीडियो
- वास्तविक
- दिखाई
- महत्वपूर्ण
- walkthrough
- कौन कौन से
- जब
- कौन
- चौड़ा
- मर्जी
- अंदर
- बिना
- काम
- कार्य
- विश्व प्रसिद्ध
- X
- साल
- आपका
- जेफिरनेट