مشاهده پذیری: قابلیت ردیابی برای سیستم های توزیع شده

مشاهده پذیری: قابلیت ردیابی برای سیستم های توزیع شده

گره منبع: 1990640

آیا تا به حال منتظر آن بسته گران قیمتی بوده اید که نشان می دهد "ارسال شده" است، اما نمی دانید کجاست؟ تاریخچه ردیابی پنج روز پیش به روز رسانی متوقف شد و تقریباً امید خود را از دست داده اید. اما صبر کنید، 11 روز بعد، آن را در آستان خود دارید. آرزو می کردید که ای کاش قابلیت ردیابی می توانست بهتر باشد تا شما را از این همه انتظار مضطرب رها کند. اینجاست که «مشاهده پذیری» به بازی می آید.

در یک چشم انداز فنی، شما می خواهید از این اتفاق برای نرم افزار یا سیستم های داده خود جلوگیری کنید. و در نتیجه، ابزارهای نظارتی را به کار می‌گیرید که گزارش‌ها و معیارهای سیستم‌های شما را جمع‌آوری می‌کند و شما را از وضعیت داخلی آنها مطلع می‌کند. مانیتورینگ زمانی بهترین کار را انجام می‌دهد که بخواهید سیستم‌هایتان به شما اطلاع دهند که خطا چیست، کجا و چه زمانی رخ داده است، اما به شما نمی‌گوید چگونه خطا را حل کنید.

بیش از یک دهه پیش، ابزارهای نظارت فاقد زمینه و پیش‌بینی مسائل اساسی سیستم بودند و تیم‌ها به اشکال‌زدایی خطاهای عملیاتی روزانه محدود می‌شدند. امروز، ما در دنیای توزیع شده ای از میکروسرویس ها کار می کنیم و زندگی می کنیم خطوط لوله داده; حتی استفاده از ابزارهای نظارتی متعدد به شما کمک نمی کند به سؤالات تجاری خود پاسخ دهید مانند "چرا برنامه من همیشه کند است؟" یا "مشکل در چه مرحله ای رخ داد و چقدر در پشته است؟" یا "چگونه می توانم عملکرد کلی محیط را بهبود بخشم؟" لازم است در اتخاذ این تصمیمات فعال باشید و دید کلی از سیستم ها، برنامه ها و داده های خود داشته باشید.

این پست های وبلاگ توسط Etsy یک دهه پیش منتشر شد و این واقعیت را در پاراگراف دوم بیان می کند:

معیارهای برنامه معمولاً سخت‌ترین و در عین حال مهم‌ترین از این سه مورد هستند. آنها برای کسب و کار شما بسیار خاص هستند و با تغییر برنامه های شما تغییر می کنند (و Etsy تغییرات زیادی می کند).

بنابراین، چگونه همه چیز و هر چیزی را اندازه گیری کنیم؟ ما با قابلیت مشاهده شروع می کنیم.

مشاهده پذیری چیست؟

اصطلاح «مشاهده پذیری» بود مشتاق توسط رودولف امیل کالمان در سال 1960 در مقاله مهندسی خود برای توصیف سیستم های کنترل ریاضی. او آن را به‌عنوان معیاری تعریف کرد که نشان می‌دهد چگونه می‌توان وضعیت‌های داخلی یک سیستم را از دانش خروجی‌های بیرونی آن استنباط کرد. اما آیا به نظر نمی رسد نظارت باشد؟ اساساً بله، نظارت است.

این روزها، مشاهده پذیری به یک موضوع بسیار داغ تبدیل شده است. طبق چندین بررسی بازار، این یک پلتفرم میلیارد دلاری است. بسیاری از سازمان ها این مفهوم را پذیرفته اند و از آن به عنوان چارچوبی برای مشاهده سرتاسر سیستم ها و خطوط لوله توزیع شده خود استفاده کرده اند. با این حال، مشاهده با نظارت اشتباه گرفته می شود. در حال حاضر، می توانم بگویم که نظارت زیرمجموعه ای از مشاهده پذیری است، جایی که مشاهده پذیری یک اصطلاح بزرگ است. 

قابلیت مشاهده امکان ردیابی توزیع شده را از طریق جمع آوری و تجمیع ردیابی ها، گزارش ها و معیارها فراهم می کند. بیایید ببینیم اینها چه نتیجه ای دارند:

  • ردیابی: هنگامی که یک سیستم درخواستی را دریافت می کند، ردیابی ها به شما می گویند که چگونه آن درخواست، در طول چرخه عمر خود، از مبدا به مقصد جریان می یابد. ردیابی ها با "span" نشان داده می شوند. ردیابی درختی از دهانه است و دهانه یک عملیات واحد در یک ردیابی است. آنها به شما کمک می کنند تا خطاها، تأخیرها یا تنگناها را در سیستم پیدا کنید.
  • سیاهههای مربوط: اینها رویدادهای مهر زمانی تولید شده توسط ماشین هستند که به شما در مورد عملیات یا تغییرات رخ داده در سیستم می گویند. گزارش‌ها اغلب برای پرس و جوی این خطاها یا تغییرات در سیستم استفاده می‌شوند.
  • معیارهای: اینها بینش کمی در مورد CPU، حافظه، استفاده از دیسک و نحوه عملکرد سیستم در یک دوره زمانی ارائه می دهند.

این ویژگی ها چارچوب نظارت را با قابلیت ردیابی افزایش می دهد. قابلیت ردیابی لنزهایی را در اختیار شما قرار می‌دهد تا درخواستی را که با سیستم شما تماس برقرار می‌کند، مدت زمانی که طول می‌کشد از یک مؤلفه به مؤلفه دیگر عبور کند، چه سرویس‌های دیگری را فراخوانی می‌کند، آیا خطا ایجاد می‌کند، چه گزارش‌هایی تولید می‌کند، چه وضعیتی را ردیابی می‌کند. در چه زمانی شروع و پایان یافت، چه زمانی در سیستم شما ماندگار شد و غیره. وقتی این ردیابی ها را جمع آوری، جمع آوری و تجزیه و تحلیل می کنید، می توانید تصمیمات آگاهانه ارزشمندی مانند جدول زمانی مشتری در یک وب سایت تجارت الکترونیک بگیرید. ، چه مدت طول کشید تا آنها یک محصول را جستجو کنند، چه مدت محصول را مشاهده کردند، آیا صفحه HTML جزئیات کامل مانند تصاویر یا ویدیوهای جاسازی شده را بارگیری کرد، چقدر سیستم برای تأیید اعتبار و پردازش پرداخت و غیره طول کشید.

با مشاهده پذیری در یک محیط توزیع شده به چه چیزی می رسیم؟

تکامل سیستم های توزیع شده زمانی آغاز شد که سازمان ها شروع به دور شدن از معماری یکپارچه متمرکز خود به معماری میکروسرویس توزیع شده و غیرمتمرکز کردند. و این هنوز یک کار در حال پیشرفت است که بسیاری از سازمان‌ها ماهیت ریزسرویس سیستم‌ها و برنامه‌ها را پذیرفته‌اند. و همه اینها را می توان به آن نسبت داد داده های بزرگ و پوسته پوسته شدن مدیریت یک محیط توزیع شده مستلزم یادگیری مداوم، نیروی کار اضافی، تغییر در چارچوب ها و سیاست ها، مدیریت فناوری اطلاعات و غیره است. در واقع یک تغییر بزرگ است.

پیش از این، در محیط یکپارچه محدود، سخت‌افزار، نرم‌افزار، داده‌ها و پایگاه‌های داده همگی زیر یک سقف واحد زندگی می‌کردند. با ظهور داده های بزرگ در دهه 2000، سیستم های نظارت و مقیاس گذاری شروع به تبدیل شدن به یک نگرانی بزرگ کردند. اغلب، سازمان ها از ابزارهای نظارتی مختلفی برای رفع نیازهای برنامه های مختلف خود استفاده می کردند. در نتیجه، به زودی به یک سربار عملیاتی با انعطاف پذیری، دید و قابلیت اطمینان ضعیف تبدیل شد.

همه این مسائل منجر به پذیرش قابلیت مشاهده شد. امروزه چندین ابزار مشاهده برای امنیت، شبکه، برنامه‌ها و خطوط لوله داده برای ردیابی توزیع شده در یک محیط پیچیده وجود دارد. آنها با پسر عموی خود، ابزارهای نظارتی، همزیستی دارند و اهرم جمع آوری اطلاعات را از پسر عموی خود می گیرند و با اطلاعات اضافی از داده های ردیابی خود جمع می کنند.

اجزای متحرک زیادی در همه این سیستم ها وجود دارد که ردپای آنها هنگام ثبت می تواند داستان 5 W را نشان دهد: کی، کجا، چرا، چه و چگونه. به عنوان مثال، شما در ساعت 1:43 بعد از ظهر به وب سایت DATAVERSITY می روید تا برخی از پست های وبلاگ را بخوانید. وقتی dataversity.net را می زنید، درخواست HTTP به سیستم وارد می شود. شما شروع به جستجو برای یک پست وبلاگ می کنید و به یک پست مدیریت داده می روید، جایی که 17 دقیقه را صرف خواندن آن پست می کنید و سپس برگه خود را در ساعت 2:00 بعد از ظهر می بندید.

همچنین تماس های دیگری با سیستم شبکه برای گرفتن بسته های شبکه نیز برقرار خواهد شد. ابزارهای مشاهده‌پذیری همه دهانه‌ها را جمع‌آوری می‌کنند و آنها را در یک رد یا ردیابی یکپارچه می‌کنند و به شما امکان می‌دهند مسیری را که در طول چرخه زندگی خود شکل داده است ببینید. اگر مشکلی مانند تأخیر شبکه یا نقص سیستم دارید، اکنون جدا کردن (پوست کردن پیاز) و رفع اشکال (خطا در کدام لایه) آسان تر است.

اکنون در یک محیط توزیع شده بزرگ، زمانی که برنامه های شما میلیون ها درخواست را دریافت می کنند، داده های ردیابی در حجم عظیمی رشد می کنند. جمع آوری و تجزیه و تحلیل این آثار برای مصرف ذخیره سازی و انتقال داده ها گران است. بنابراین، برای صرفه‌جویی در هزینه‌ها، داده‌های ردیابی نمونه‌برداری می‌شوند، زیرا در بیشتر موارد، تیم‌های مهندسی فقط به برخی از قطعات نیاز دارند تا بررسی کنند که چه چیزی اشتباه بوده یا الگوی خطا چیست.

با این مثال کوچک، می‌فهمیم که بینش‌های عمیق‌تری نسبت به سیستم‌هایمان به دست می‌آوریم. بنابراین، با در نظر گرفتن مقیاس بزرگ‌تری از سیستم‌ها، تیم‌های مهندسی می‌توانند داده‌های نمونه‌گیری شده را برای بهبود ساختار فعلی سیستم، اعمال یا بازنشستگی اجزای جدید، اضافه کردن یک لایه امنیتی دیگر، حذف گلوگاه‌ها و غیره جمع‌آوری کرده و روی آنها کار کنند. 

آیا سازمان ها باید قابلیت مشاهده را انتخاب کنند؟

همه ما باید درک کنیم که اهداف نهایی تجربه کاربر بهتر و رضایت بیشتر کاربر است. و مسیر دستیابی به این اهداف را می توان با یک چارچوب قابلیت مشاهده خودکار و فعال آسان تر کرد. ایجاد فرهنگ بهبود مستمر و بهینه سازی رویکرد بهینه کسب و کار و رهبری تلقی می شود. 

در این عصر دگرگونی دیجیتال، مشاهده پذیری برای موفقیت یک کسب و کار در سفر دیجیتالی خود به یک الزام ضروری تبدیل شده است. مشاهده‌پذیری با ارائه ردیابی‌های روشن‌گری به شما، به شما مانور می‌دهد که به جای اینکه صرفاً داده محور باشید، از داده‌ها مطلع شوید.

نتیجه

اگرچه ما از واژه‌های نظارت و مشاهده‌پذیری به جای یکدیگر استفاده کرده‌ایم، اما دیده‌ایم که در حالی که نظارت به شما کمک می‌کند اطلاعاتی در مورد سلامت سیستم و رویدادهایی که روی آن اتفاق می‌افتد را دریافت کنید، اما مشاهده‌پذیری به شما کمک می‌کند تا بر اساس شواهد جمع‌آوری‌شده از لایه‌های عمیق‌تر یک پایان استنتاج کنید. محیط به پایان

مشاهده پذیری نیز می تواند به عنوان جزئی از چارچوب حاکمیت داده تلقی شود. در این نسل، جایی که حجم داده‌های فزاینده در شبکه‌ای از سخت‌افزار کالا قرار دارد، ساده نگه داشتن معماری‌ها تا حد امکان حیاتی است. و بدیهی است که مدیریت محیط در این مسیر به یک کار غیرممکن تبدیل می شود. بنابراین، اجرای سیاست‌ها و قوانین حاکمیتی مناسب و خودکار برای حفظ شبکه بزرگ سیستم‌ها، خطوط لوله و داده‌های شما، زودتر اقدام به عمل می‌کند.

تمبر زمان:

بیشتر از DATAVERSITY