สถาปัตยกรรมใดที่สามารถสอนเราเกี่ยวกับระบบการรักษาตนเอง

สถาปัตยกรรมใดที่สามารถสอนเราเกี่ยวกับระบบการรักษาตนเอง

โหนดต้นทาง: 1988904

ทีม DevOps และวิศวกรความน่าเชื่อถือของไซต์ (SRE) จัดการกับโค้ดทุกวัน การทำเช่นนี้สอนให้พวกเขาพินิจพิเคราะห์โลกของตน สังเกตอย่างชาญฉลาด และเชื่อมโยงความสัมพันธ์ที่ไม่คาดคิด ถึงแม้จะมีตรรกะและคณิตศาสตร์สูงโดยธรรมชาติ แต่การพัฒนาซอฟต์แวร์ก็ถือเป็นศิลปะอย่างหนึ่ง 

ไม่มั่นใจกับคำพูดนั้นเหรอ? พิจารณาความคล้ายคลึงกันระหว่างความสำเร็จทางสถาปัตยกรรมที่น่าทึ่งที่สุดในประวัติศาสตร์กับวิศวกรรมซอฟต์แวร์สมัยใหม่ เป็นการเปรียบเทียบที่เหมาะสม: เช่นเดียวกับวิศวกรรมซอฟต์แวร์ สถาปัตยกรรมใช้การคำนวณทางคณิตศาสตร์ที่ซับซ้อนเพื่อสร้างสิ่งที่สวยงาม และในทั้งสองสาขาวิชา การคำนวณผิดเล็กน้อยอาจนำไปสู่ผลลัพธ์ที่สำคัญได้ น่าประหลาดใจที่ข้อผิดพลาดทางสถาปัตยกรรมที่มีชื่อเสียงหลายอย่างคล้ายคลึงกับปัญหาที่เราพบในโค้ด

จำไว้ว่าแรงบันดาลใจมีอยู่ทุกที่ ตราบใดที่คุณรู้ว่าจะต้องมองที่ไหน ต่อไปนี้เป็นบทเรียนบางส่วนที่วิศวกรซอฟต์แวร์สามารถเรียนรู้ได้จากสถาปัตยกรรมที่สืบทอดกันมาหลายศตวรรษ โดยเฉพาะอย่างยิ่งเกี่ยวกับอนาคตของระบบการรักษาตนเอง

บทที่ 1: กรณี Edge จะใช้ประโยชน์จากช่องโหว่ของระบบเสมอ

Citicorp Tower - ปัจจุบันเรียกว่า 601 เล็กซิงตัน - ก่อสร้างแล้วเสร็จในนิวยอร์กซิตี้ในปี 1977 ซึ่งในขณะนั้นเป็นอาคารที่สูงเป็นอันดับเจ็ดของโลก การออกแบบที่ล้ำสมัยของตึกระฟ้าแห่งนี้ประกอบด้วยเสาค้ำสูง 100 ฟุตสามต้น มันเป็นเรื่องมหัศจรรย์เมื่อเสร็จสิ้น อย่างไรก็ตาม นักศึกษาระดับปริญญาตรีคนหนึ่งก็ได้ค้นพบบางสิ่งที่สั่นสะเทือน นั่นคือ ลมแรง อาจเป็นอันตรายต่อความสมบูรณ์ของอาคารได้. โดยเฉพาะอย่างยิ่ง หากลมพัดแรงปะทะที่มุมของอาคาร Citicorp Tower โครงสร้างก็อาจพังทลายลงได้ ขอบกรณี.

หอคอยมีโอกาส 16 ใน XNUMX ที่จะถล่มในแต่ละปี อัตราต่อรองเหล่านี้อาจดึงดูดคนที่นั่งอยู่ที่โต๊ะพนัน แต่แนวโน้มนั้นเลวร้ายสำหรับสถาปนิกและวิศวกรโครงสร้างที่อยู่เบื้องหลังอาคาร Citicorp Tower โชคดีที่ช่างเทคนิคสามารถเสริมข้อต่อแบบเกลียวของอาคารได้ ภัยพิบัติก็หลีกเลี่ยงได้

วิศวกรโครงสร้างรู้ดีว่าในที่สุดอาคาร Citicorp Tower จะต้องเผชิญกับลมที่แรงพอที่จะกระทบต่อทิศทางของอาคารได้ ในทำนองเดียวกัน วิศวกรซอฟต์แวร์ที่มีประสบการณ์รู้ว่าการตรวจสอบประสิทธิภาพแอปพลิเคชัน (APM) ที่แข็งแกร่งและการจัดการเหตุการณ์ไม่เพียงพอที่จะปกป้องระบบจากกรณี Edge ที่หลีกเลี่ยงไม่ได้ นั่นก็เพราะว่าไม่มีระบบสถิตย์ การเรียนรู้ของเครื่อง (ML) ความสามารถไม่สามารถรับมือกับสถานการณ์ใหม่ที่ไม่คาดคิดและไม่ได้วางแผนไว้ เช่น ลมที่พัดผ่าน เมื่ออาศัยเครื่องมือตรวจสอบเพียงอย่างเดียว ผู้ดูแลระบบที่เป็นมนุษย์จะต้องถอดรหัสข้อผิดพลาดและเพิ่มระดับกระบวนการจัดการเหตุการณ์

เพื่อลดเวลาเฉลี่ยในการกู้คืน (MTTR)/เวลาเฉลี่ยในการตรวจจับ (MTTD) ทีม DevOps จะต้องยอมรับความเป็นไปได้สูงของกรณี Edge และทำงานเพื่อปรับใช้โซลูชันการเรียนรู้ด้วยตนเองล่วงหน้า บทเรียนนี้มีเนื้อหาครอบคลุม เนื่องจากการมองการณ์ไกลถือเป็นสิ่งสำคัญในด้านวิศวกรรม

บทที่ 2: “การสร้างเครื่องบินในขณะที่มันบิน” สร้างวงจรที่ไม่มีวันสิ้นสุด

เหตุการณ์โศกนาฏกรรมได้ส่งผลกระทบหลายอย่าง บทเรียนที่สำคัญที่สุดในประวัติศาสตร์การบิน. เมื่อเครื่องบินประสบกับการบีบอัดขนาดมหึมาระหว่างการบินและเกิดอุบัติเหตุในปี 1954 วิศวกรยืนยันว่าหน้าต่างผู้โดยสารทรงสี่เหลี่ยมเป็นจุดที่ทำให้เกิดความเครียดโดยไม่จำเป็น ตั้งแต่บัดนี้เป็นต้นไป, เครื่องบินมีหน้าต่างโค้งมน. เหตุเพลิงไหม้บนเรือทำให้มีการจัดที่นั่งใหม่โดยให้ความสำคัญกับการอพยพได้ง่าย การเปลี่ยนแปลงเหล่านี้ช่วยชีวิตคนได้นับไม่ถ้วน

ในหลายอุตสาหกรรม รวมถึงการบินด้วย ไม่มีทางใดที่จะทดสอบผลิตภัณฑ์อย่างเข้มงวดได้อย่างละเอียดถี่ถ้วน ตามที่กล่าวไว้ข้างต้น กรณี Edge เป็นสิ่งที่หลีกเลี่ยงไม่ได้ ประเด็นสำคัญที่สุดคือวิศวกรซอฟต์แวร์ต้องคำนึงถึงจุดอ่อนของระบบเมื่อพวกเขาปรากฏตัว จากนั้นพวกเขาจะต้องจัดการกับพวกเขาอย่างเหมาะสม การทำเช่นนั้นต้องใช้สองสิ่ง: (1) การระบุและติดตามตัวบ่งชี้ประสิทธิภาพหลัก (KPI) ที่เหมาะสม และ (2) การใช้เวลาและทรัพยากรในการปรับปรุงระบบตามตัวชี้วัดที่เกี่ยวข้อง

ทีมวิศวกรโดยเฉลี่ยลงทุนในเครื่องมือติดตามผล 16 ถึง 40 เครื่องมือ แต่พวกเขาก็มักจะพลาดจุดที่หน่วยวัดแสดงให้เห็นถึงความสำเร็จ มีทีมน้อยกว่า 15% ติดตาม MTTD ดังนั้นพวกเขาจึงพลาด 66% ของวงจรเหตุการณ์ และหนึ่งในสี่ของทีมรายงาน ไม่มีข้อตกลงระดับการให้บริการ (SLA) แม้จะมีการลงทุนจำนวนมากในการติดตามความพร้อมใช้งานก็ตาม สิ่งนี้บอกเราว่าการรวบรวมข้อมูลจำเป็นต้องมีการวิเคราะห์อย่างเป็นระบบและถี่ถ้วนเพื่อตัดมัน การแก้ปัญหาเฉพาะจุดยังไม่เพียงพออีกต่อไป

วิศวกรซอฟต์แวร์ ทีม DevOps และ SRE จะต้องจัดลำดับความสำคัญของกระบวนการและเครื่องมือที่ดึงคุณค่าจากข้อมูลจำนวนมหาศาลเกี่ยวกับความพร้อมใช้งาน แทนที่จะเพียงแต่สังเกตข้อผิดพลาดร้ายแรง พวกเขาต้องนำหน้าหนึ่งจากหนังสือของวิศวกรการบินมาทำการตัดสินใจที่สำคัญอย่างรวดเร็ว ความลับในการทำเช่นนั้นอยู่ใน AI

บทที่ 3: AI เป็นองค์ประกอบพื้นฐานสำหรับระบบการรักษาตนเอง

ระบบซ่อมแซมตัวเองอัตโนมัติ ทำงานได้อย่างสมบูรณ์แบบ เหมาะสำหรับวิศวกรซอฟต์แวร์ทุกคน ระบบที่แพตช์ตัวเองนั้นดีต่อความพึงพอใจของลูกค้า เนื่องจากช่วยลดเวลาหยุดทำงานที่ผู้บริโภคต้องเผชิญซึ่งมีค่าใช้จ่ายสูง ยิ่งไปกว่านั้น ยังมีประโยชน์อย่างเหลือเชื่อสำหรับฟังก์ชันการจัดการบริการไอที (ITSM) เนื่องจากช่วยลดความจำเป็นในการจัดการตั๋วที่น่าเบื่อลงอย่างมาก การสร้างระบบดังกล่าวต้องใช้องค์ประกอบหลายอย่าง ซึ่งหลายองค์ประกอบอยู่นอกเหนือการเข้าถึงในปัจจุบัน แต่เราใกล้ชิดกับความเป็นจริงในการเยียวยาตนเองมากกว่าที่บางคนจะตระหนักได้

การที่การนำ AI ไปใช้ไม่เพียงพอยังคงเป็นอุปสรรคใหญ่ที่สุดที่ระบบการรักษาตนเองต้องเผชิญในปัจจุบัน แม้ว่าธุรกิจจำนวนมากจะนำเครื่องมือที่ใช้ AI หรือ ML พื้นฐานมาใช้ แต่ความสมบูรณ์ของเครื่องมือเหล่านี้ยังเป็นที่น่าสงสัย กล่าวคือวิศวกรหลายคนต้องรับมือกับเรื่องนี้ ปัญญาประดิษฐ์สำหรับการดำเนินงานด้านไอที เทคโนโลยี (AIOps) ที่เป็นไปตามตรรกะอัตโนมัติตามกฎ แทนที่จะเป็นอัลกอริธึม AI อัตโนมัติ ความแตกต่างอาจดูเล็กน้อย แต่ในทางปฏิบัติ ความแตกต่างระหว่างชั่วโมงที่สูญเสียผลิตภาพกับการสูญเสียที่อาจเกิดขึ้นนับล้าน

ประเด็นก็คือ เครื่องมือ AIOps ตามกฎจะวิเคราะห์การโต้ตอบระหว่างโซลูชันที่มีจุดต่างกัน และอาจระบุข้อผิดพลาดของข้อมูลทั่วไปได้ แต่ระบบที่ใช้ระบบอัตโนมัติไม่สามารถประมวลผลวิวัฒนาการของข้อผิดพลาดใหม่ๆ เมื่อเวลาผ่านไป และไม่สามารถคาดการณ์ความผิดปกติใหม่ๆ ในข้อมูลได้ นั่นเป็นเพราะว่าผู้ดูแลระบบที่เป็นมนุษย์เขียนโค้ดฟังก์ชันเหล่านี้ขอให้ระบบปฏิบัติตาม ถ้าสิ่งนี้ก็คือสิ่งนั้น รูปแบบตรรกะ เครื่องมือ AIOps ที่มีประสิทธิภาพอย่างแท้จริงจะบรรเทาข้อผิดพลาดที่เกิดขึ้นที่จุดตรวจวัดทางไกลแบบคลาสสิกทั้งสี่จุด ตั้งแต่การตรวจจับไปจนถึงการแก้ปัญหา โดยการจำแนกรูปแบบใหม่และปัญหาก่อนที่ช่างเทคนิคที่เป็นมนุษย์จะตระหนักถึงการมีอยู่ของมันด้วยซ้ำ 

ในขณะที่เรารอคอย. คลื่นลูกที่สามของ AI ใกล้เข้ามาแล้วAIOps เวอร์ชันนี้เป็นระบบการรักษาตัวเองที่ใกล้เคียงที่สุดกับเรา การติดตามว่าแอปพลิเคชัน AIOps ในปัจจุบันก้าวไปสู่อนาคตของ AI จะเป็นอย่างไร ซึ่งจะรวมถึงระบบอัตโนมัติที่ตระหนักได้อย่างเต็มที่และความเป็นไปได้ทางความคิดที่เป็นอิสระ บางทีวิศวกรโครงสร้างอาจได้รับผลตอบแทนจากระบบการรักษาตนเองที่ใช้ AI เช่นกัน

ประทับเวลา:

เพิ่มเติมจาก ข้อมูล