چهار اصل مهندسی داده که همه دانشمندان داده باید بدانند

گره منبع: 1075630

این مقاله به عنوان بخشی از بلاگاتون علم داده

معرفی

علم داده یک ورزش تیمی است، ما اعضایی داریم که در چرخه عمر تجزیه و تحلیل/علم داده ارزش افزوده دارند تا بتواند با حل مشکلات تجاری چالش برانگیز، تحول را پیش ببرد.

ما چندین عضو تیم در یک تیم علم داده داریم: مهندسان داده که پایه و اساس همه داده ها را ایجاد می کنند که توسط تحلیلگران برای کاوش و انجام تحلیل های توصیفی مدل های پیشرفته ML ایجاد شده توسط دانشمندان داده مصرف می شود - توسط مهندسان BI تجسم شده و توسط مهندسان ML مستقر شده است. همه آنها باید پشت سر هم کار کنند تا با موفقیت برنامه علم داده یک سازمان را هدایت کنند.

یک نقشه معمولی ذینفعان برای تیم علم داده در زیر ذکر شده است:

نقش های علم داده | مبانی مهندسی داده

تصویر 1

فهرست:

- چرا یک دانشمند داده باید مفاهیم مهندسی داده را بداند؟

  • مفهوم 1 - انبار داده و دریاچه های داده
  • مفهوم 2 - داده ETL / خطوط لوله
  • مفهوم 3 - حاکمیت داده و کیفیت
  • مفهوم 4 - مقررات و اخلاق داده ها

حال این سوال مطرح می شود که آیا ما مهندسان داده قهرمانی در تیم داریم؟ چرا دانشمندان داده باید آن مفاهیم مهندسی داده/مدیریت داده را بدانند؟?

  1. از این رو آنها مصرف کنندگان داده ها هستند برای ایجاد راه حل های تحلیلی قوی با آن داده ها - دانستن زمان و نحوه جمع‌آوری، ذخیره و آماده‌سازی داده‌ها به آنها کمک می‌کند تا راه‌ها و ابزارهای مناسب برای جمع‌آوری داده‌ها، استخراج بینش و مدل‌های طراحی را به دست آورند.
  2. ممکن است تیم های علم داده نیاز داشته باشند برای تعامل منظم با مهندسی داده تیم ها برای دریافت داده های جدید، اطلاعات داده های اضافی را برای جداول مشتق شده به اشتراک بگذارید - دانستن این مفاهیم باعث می شود مکالمه کارآمدتری داشته باشید.
  3. تاکید بیشتری بر استفاده از داده ها با رضایت و طبق مقررات شده است. تیم های علم داده باید از نزدیک با مقررات داده درگیر باشند (آنها قبلاً هستند) بنابراین داشتن این دانش می تواند کمک برای سازگار ماندن و کاهش خطر مقررات داده ها

به طور خلاصه، تیم‌های علم داده باید نقش خود را ایفا کنند تا بتوانند بهترین ارزش را از داده‌های (بزرگ) بدون به خطر انداختن قوانین داده به دست آورند. و دانستن مفاهیم مهندسی داده به آنها کمک می کند تا این کار را بهتر انجام دهند.

با این زمینه، بیایید مستقیماً به مفاهیمی از لنز دانشمندان داده بپردازیم!

انبار داده و دریاچه های داده

آنچه دانشمندان داده ممکن است ندانند: 

در حین یادگیری طراحی داشبورد و ایجاد مدل، دانشمندان داده با آن بیشتر آشنا هستند بر اساس داده های ذخیره شده در انبارهای داده و منبع داده از دریاچه های داده. دانشمندان داده ممکن است ندانند که بهترین تکنیک ها برای استعلام داده ها از انبار چیست و بهترین راه برای نگاه کلی به آن داده ها چیست.

اصول کلیدی[I]

  • انبار داده منبع متمرکز پایگاه داده حقیقت است که از چندین منبع ایجاد شده است (هر بخش ممکن است هنوز انبار خود را داشته باشد) (به عنوان مثال داده های صنعت خدمات مالی مانند تراکنش های کارت اعتباری)
  • معمولاً دارای ساختار غیرعادی شده (برای پرس و جوهای سریعتر) است و هر جدول برای یک مورد تجاری بالقوه آماده و ساختار یافته است.
  • دریاچه‌های داده یک مرحله قبل از انبارهای داده است که در آن داده‌های خام (از جمله بدون ساختار) ذخیره می‌شوند، همه داده‌ها حتی اگر هنوز هدف آن تعریف نشده باشد، نگهداری می‌شوند. (به عنوان مثال، یادداشت های پزشکان در مراقبت های بهداشتی)

چگونه به دانشمندان داده کمک می کند[II]

  • یک راه حل مدل/تحلیل ML به اندازه داده های آن خوب است، بنابراین برای دانشمندان داده ضروری است که منشاء داده ها را بدانند.
  • در اکثر پروژه‌های علم داده، ۸۰ درصد زمان صرف بحث و جدل داده‌ها می‌شود، بنابراین دانش انبار داده و سپس قادر به درک/ایجاد/درخواست مجموعه‌های داده‌های آماده تجزیه و تحلیل/داده‌ها می‌تواند به افزایش کارایی و کاهش زمان‌بندی پروژه کمک کند.
  • دریاچه های داده می توانند به دانشمندان داده در تمرینات اکتشافی برای شناسایی داده ها برای موارد استفاده کمک کنند

 

داده ETL (Extract Transform Load)/ Pipelines

آنچه دانشمندان داده ممکن است ندانند:

داده‌هایی که جمع‌آوری می‌شوند و برای تجزیه و تحلیل ارائه می‌شوند، اغلب قبل از اینکه در انبار داده یا فایل تجزیه و تحلیل قرار گیرند، مراحل پیش‌پردازش و انتقال زیادی دارند. بسیاری از دانشمندان داده در حین یادگیری ML / AI ممکن است از داده های از قبل آماده شده استفاده کرده باشند که نیاز به ML واقعی را از بین می برد، اما در طراحی واقعی ML در یک صنعت اغلب دانشمند داده باید داده ها را بر اساس مورد استفاده آماده و اصلاح کند - آنها قطعاً باید بدانند چه چیزی چیست. داده‌هایی بود که جمع‌آوری شد و چگونه به یک زمینه خاص رسید (به عنوان مثال آیا جنسیت Null به این معنی است که استفاده نمی‌خواهد آن را به اشتراک بگذارد یا به این معنی است که داده‌ها در دسترس نبودند یا هر دو - تیم مهندسی داده این پاسخ‌ها را خواهد داشت)

اصول کلیدی[III]

  • ETL = «استخراج، تبدیل و بارگذاری»، مراحل مهندسی داده‌ای هستند که در آماده‌سازی داده‌ها، چه برای ذخیره آن‌ها در انبار یا استفاده از آن برای یک مدل ML/مورد استفاده از تجزیه و تحلیل، مورد نیاز هستند.
  • این شامل دریافت داده از یک منبع (مثلاً تجزیه و تحلیل Adobe در وب سایتی است که در Adobe Cloud ذخیره شده است) تا یک فید داده از آن تهیه شود و سپس آن را به قالبی مرتبط با تجارت تبدیل کنید (ادغام با شناسه مشتری منحصر به فرد سازمان). برای مثال، تغییر واحد پول به $ از ارز محلی) و سپس بارگیری آن در یک یا چند جدول در انبار داده/دریاچه. گاهی اوقات تبدیل پس از بارگذاری آن داده انجام می شود و به آن ELT می گویند.
  • خط لوله داده مجموعه ای از اتصالات و مراحل است که از طریق آن داده ها از یک مکان به مکان دیگر منتقل می شوند
  • خوراک داده بلوکی از داده است که به صورت دوره ای از طریق فرآیندهای ETL وارد انبار داده می شود

چگونه به دانشمندان داده کمک می کند

  • مدل‌های ML/راه‌حل‌های تحلیلی فقط برای یک بار ساخته نمی‌شوند، بلکه باید دائماً به‌روزرسانی و به‌روزرسانی شوند - برای این کار ML و خطوط لوله داده باید
  • مفاهیم ETL داده را می توان در پیش پردازش ML به کار برد تا کدها و گردش های کاری آماده تولید را ایجاد کند که می تواند در حین اجرای ML استفاده شود.
  • دانش فرآیندهای ETL می‌تواند به درک اصل و نسب داده‌ها و تفسیر درست داده‌ها کمک کند (مثلاً دانش داده‌های «سن» در محل فروش به صورت دستی یا خودکار جمع‌آوری شده است و نقشه‌برداری برای باندهای سنی قبل از ذخیره‌سازی می‌تواند به طراحی بهتر مدل‌های ML کمک کند)
ابر | مبانی مهندسی داده

تصویر 2

 

حاکمیت داده و کیفیت

آنچه دانشمندان داده ممکن است ندانند: 

داده ها اساس همه راه حل های تحلیلی است، اگر حتی بخشی از مجموعه داده تغییر کند، به مدل های پایین دستی ایجاد شده و غیره کاملاً آسیب می رساند، اغلب هیچ بررسی برای بررسی منطقی سازگاری داده ها برای یک زمینه خاص وجود ندارد (مثلاً اگر درآمد ناگهانی به ازای هر مشتری باشد. از 100 دلار به 800 دلار افزایش می‌یابد، بدون اینکه تغییری در محیط کسب‌وکار ایجاد شود، سپس منجر به نمرات اشتباه ML و داشبوردهای نادرست می‌شود). بنابراین، یک تیم علم داده باید از نزدیک با تیم مدیریت داده و تیم مهندسی همکاری کند تا در تمام مسیرهای حیاتی بررسی کند تا اطمینان حاصل شود که همه مدل‌ها و تحلیل‌ها به طور مداوم داده‌های مناسب را دریافت می‌کنند.

اصول کلیدی[IV]

  • حاکمیت داده اصطلاح گسترده‌تری است که برای تعریف نحوه مدیریت سازمان‌ها اهداف داده، دامنه، مالکیت، حریم خصوصی و امنیت از جمله فرآیندها و داده‌های استاندارد استفاده می‌شود.
  • کیفیت داده زیرمجموعه ای از حاکمیت داده است که بر نظارت مستمر داده ها برای کامل بودن، سازگاری و برنامه ریزی برای رسیدگی به بی نظمی های داده تمرکز دارد.
  • به عنوان مثال - اگر یک سازمان مجبور باشد داده های رسانه های اجتماعی را دریافت کند، حاکمیت داده تمام ارزیابی ها و برنامه ریزی ها را تحت حاکمیت داده انجام می دهد و سپس داده های دریافتی را با استفاده از کیفیت داده ارزیابی می کند.

چگونه به دانشمندان داده کمک می کند

  • کیفیت داده ها به ایجاد راه حل های تحلیلی قوی و حفظ اعتبار و اعتماد تیم های علم داده کمک می کند
  • در صورت شناسایی پیشگیرانه و حل مشترک توسط تیم های فناوری اطلاعات، علوم داده و کسب و کار، از کار مجدد و تصمیمات تجاری اشتباه جلوگیری می کند.
  • این مانند نظارت بر خروجی مدل است، اما در این مورد، داده های ورودی به انبار داده به دقت نظارت می شود تا برای هر گونه بی نظمی هشدار داده شود.
کیفیت داده ها | مبانی مهندسی داده

تصویر 3

قوانین و مقررات داده ها و اخلاق

آنچه دانشمندان داده ممکن است ندانند:

داده‌های مورد استفاده ممکن است توسط قوانین محدود شده باشند و حتی مدل‌های ML ایجاد شده ممکن است سوگیری داشته باشند و از داده‌ها به روشی ناخواسته استفاده کنند که گاهی با استانداردهای اخلاقی مطابقت ندارد. هرگونه پیامد قانونی یا رویداد تصویر برند ممکن است ناشی از کاری باشد که یک تیم علم داده انجام داده است. از آنجایی که تیم علم داده در مدیریت داده ها و راه حل های تجزیه و تحلیل آن داده ها پیشتاز بود، آنها مسئول تأثیر آن هستند. با کمال تعجب بسیاری از تیم های تحلیلی این را نمی دانند و برای آن آماده نیستند. ممکن است رضایت کاربر برای مورد استفاده ای که تیم DS برای آن استفاده کرده است، جمع آوری نشده باشد.

اصول کلیدی[V]

  • مقررات داده‌ها به قوانین حاکم بر جمع‌آوری، افشا، ذخیره‌سازی، استفاده و سپس پاکسازی داده‌ها در پایان چرخه استفاده آن اشاره دارد (مانند GDPR، CCPA).
  • اخلاق داده به استفاده اخلاقی، شفافیت، عدم تعصب و استفاده درست از داده ها اشاره دارد (به عنوان مثال استفاده نکردن از داده های لایه های اجتماعی برای رد وام های مشتری حتی اگر آن قشر خاص ممکن است سابقه بازپرداخت بدی داشته باشد)

چگونه به دانشمندان داده کمک می کند

  • از خطرات قانونی، نام تجاری و اعتباری ناشی از استفاده صحیح از داده ها جلوگیری می کند
  • به توسعه مدل های مشتری پسند کمک می کند که می توانند به عنوان نمونه در سراسر سازمان عمل کنند
  • مدیریت بهتر دسترسی به اشتراک‌گذاری داده‌های حساس در بین تیم‌ها برای جلوگیری از اشتراک‌گذاری داده‌ها در دست‌های اشتباه و در نتیجه به طراحی بهتر استراتژی حاکمیت داده کمک می‌کند.

 

بستن اندیشه

پشته تجزیه و تحلیل: همه را با هم جمع می کند - تمام عناصر (4 مورد ذکر شده در اینجا) را در یک موجودیت واحد که تیم تجزیه و تحلیل برای تولید نتایج مصرف می کند ترکیب می کند. به طور معمول، با برخی تغییرات مانند زیر است.

پشته تجزیه و تحلیل | مبانی مهندسی داده

تصویر 4

یک تیم علم داده باید بر روی این چهار عامل تمرکز کند تا یک روش انعطاف‌پذیر و پایدار ایجاد کند و با کیفیت بالا به کسب و کار ارزش افزوده ادامه دهد.


منابع


[I] https://www.talend.com/resources/data-lake-vs-data-warehouse/

[II] https://towardsdatascience.com/data-warehouse-68ec63eecf78

[III] https://www.snowflake.com/guides/etl-pipeline

[IV] https://www.collibra.com/blog/data-quality-vs-data-governance

[V] https://www.datascience-pm.com/10-data-science-ethics-questions/

منابع تصویر-

  1. Image 1: https://medium.com/co-learning-lounge/job-roles-in-data-science-10e790ea21b5
  2. Image 2: https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-architecture-on-cloud-4d59efc092b5
  3. تصویر 3: https://www.edq.com/blog/data-quality-vs-data-governance/
  4. تصویر 4: https://www.tellius.com/the-modern-data-analytics-stack/

ماده توسط اشوین کومار | Data Science Lead & Crusader | لینکدین

رسانه های نشان داده شده در این مقاله متعلق به Analytics Vidhya نیستند و به صلاحدید نویسنده استفاده می شوند.

منبع: https://www.analyticsvidhya.com/blog/2021/09/four-data-engineering-fundamentals-all-data-scientists-must-know/

تمبر زمان:

بیشتر از تجزیه و تحلیل Vidhya