این مقاله به عنوان بخشی از بلاگاتون علم داده
معرفی
علم داده یک ورزش تیمی است، ما اعضایی داریم که در چرخه عمر تجزیه و تحلیل/علم داده ارزش افزوده دارند تا بتواند با حل مشکلات تجاری چالش برانگیز، تحول را پیش ببرد.
ما چندین عضو تیم در یک تیم علم داده داریم: مهندسان داده که پایه و اساس همه داده ها را ایجاد می کنند که توسط تحلیلگران برای کاوش و انجام تحلیل های توصیفی مدل های پیشرفته ML ایجاد شده توسط دانشمندان داده مصرف می شود - توسط مهندسان BI تجسم شده و توسط مهندسان ML مستقر شده است. همه آنها باید پشت سر هم کار کنند تا با موفقیت برنامه علم داده یک سازمان را هدایت کنند.
یک نقشه معمولی ذینفعان برای تیم علم داده در زیر ذکر شده است:
تصویر 1
فهرست:
- چرا یک دانشمند داده باید مفاهیم مهندسی داده را بداند؟
- مفهوم 1 - انبار داده و دریاچه های داده
- مفهوم 2 - داده ETL / خطوط لوله
- مفهوم 3 - حاکمیت داده و کیفیت
- مفهوم 4 - مقررات و اخلاق داده ها
حال این سوال مطرح می شود که آیا ما مهندسان داده قهرمانی در تیم داریم؟ چرا دانشمندان داده باید آن مفاهیم مهندسی داده/مدیریت داده را بدانند؟?
- از این رو آنها مصرف کنندگان داده ها هستند برای ایجاد راه حل های تحلیلی قوی با آن داده ها - دانستن زمان و نحوه جمعآوری، ذخیره و آمادهسازی دادهها به آنها کمک میکند تا راهها و ابزارهای مناسب برای جمعآوری دادهها، استخراج بینش و مدلهای طراحی را به دست آورند.
- ممکن است تیم های علم داده نیاز داشته باشند برای تعامل منظم با مهندسی داده تیم ها برای دریافت داده های جدید، اطلاعات داده های اضافی را برای جداول مشتق شده به اشتراک بگذارید - دانستن این مفاهیم باعث می شود مکالمه کارآمدتری داشته باشید.
- تاکید بیشتری بر استفاده از داده ها با رضایت و طبق مقررات شده است. تیم های علم داده باید از نزدیک با مقررات داده درگیر باشند (آنها قبلاً هستند) بنابراین داشتن این دانش می تواند کمک برای سازگار ماندن و کاهش خطر مقررات داده ها
به طور خلاصه، تیمهای علم داده باید نقش خود را ایفا کنند تا بتوانند بهترین ارزش را از دادههای (بزرگ) بدون به خطر انداختن قوانین داده به دست آورند. و دانستن مفاهیم مهندسی داده به آنها کمک می کند تا این کار را بهتر انجام دهند.
با این زمینه، بیایید مستقیماً به مفاهیمی از لنز دانشمندان داده بپردازیم!
انبار داده و دریاچه های داده
آنچه دانشمندان داده ممکن است ندانند:
در حین یادگیری طراحی داشبورد و ایجاد مدل، دانشمندان داده با آن بیشتر آشنا هستند بر اساس داده های ذخیره شده در انبارهای داده و منبع داده از دریاچه های داده. دانشمندان داده ممکن است ندانند که بهترین تکنیک ها برای استعلام داده ها از انبار چیست و بهترین راه برای نگاه کلی به آن داده ها چیست.
اصول کلیدی[I]
- انبار داده منبع متمرکز پایگاه داده حقیقت است که از چندین منبع ایجاد شده است (هر بخش ممکن است هنوز انبار خود را داشته باشد) (به عنوان مثال داده های صنعت خدمات مالی مانند تراکنش های کارت اعتباری)
- معمولاً دارای ساختار غیرعادی شده (برای پرس و جوهای سریعتر) است و هر جدول برای یک مورد تجاری بالقوه آماده و ساختار یافته است.
- دریاچههای داده یک مرحله قبل از انبارهای داده است که در آن دادههای خام (از جمله بدون ساختار) ذخیره میشوند، همه دادهها حتی اگر هنوز هدف آن تعریف نشده باشد، نگهداری میشوند. (به عنوان مثال، یادداشت های پزشکان در مراقبت های بهداشتی)
چگونه به دانشمندان داده کمک می کند[II]
- یک راه حل مدل/تحلیل ML به اندازه داده های آن خوب است، بنابراین برای دانشمندان داده ضروری است که منشاء داده ها را بدانند.
- در اکثر پروژههای علم داده، ۸۰ درصد زمان صرف بحث و جدل دادهها میشود، بنابراین دانش انبار داده و سپس قادر به درک/ایجاد/درخواست مجموعههای دادههای آماده تجزیه و تحلیل/دادهها میتواند به افزایش کارایی و کاهش زمانبندی پروژه کمک کند.
- دریاچه های داده می توانند به دانشمندان داده در تمرینات اکتشافی برای شناسایی داده ها برای موارد استفاده کمک کنند
داده ETL (Extract Transform Load)/ Pipelines
آنچه دانشمندان داده ممکن است ندانند:
دادههایی که جمعآوری میشوند و برای تجزیه و تحلیل ارائه میشوند، اغلب قبل از اینکه در انبار داده یا فایل تجزیه و تحلیل قرار گیرند، مراحل پیشپردازش و انتقال زیادی دارند. بسیاری از دانشمندان داده در حین یادگیری ML / AI ممکن است از داده های از قبل آماده شده استفاده کرده باشند که نیاز به ML واقعی را از بین می برد، اما در طراحی واقعی ML در یک صنعت اغلب دانشمند داده باید داده ها را بر اساس مورد استفاده آماده و اصلاح کند - آنها قطعاً باید بدانند چه چیزی چیست. دادههایی بود که جمعآوری شد و چگونه به یک زمینه خاص رسید (به عنوان مثال آیا جنسیت Null به این معنی است که استفاده نمیخواهد آن را به اشتراک بگذارد یا به این معنی است که دادهها در دسترس نبودند یا هر دو - تیم مهندسی داده این پاسخها را خواهد داشت)
اصول کلیدی[III]
- ETL = «استخراج، تبدیل و بارگذاری»، مراحل مهندسی دادهای هستند که در آمادهسازی دادهها، چه برای ذخیره آنها در انبار یا استفاده از آن برای یک مدل ML/مورد استفاده از تجزیه و تحلیل، مورد نیاز هستند.
- این شامل دریافت داده از یک منبع (مثلاً تجزیه و تحلیل Adobe در وب سایتی است که در Adobe Cloud ذخیره شده است) تا یک فید داده از آن تهیه شود و سپس آن را به قالبی مرتبط با تجارت تبدیل کنید (ادغام با شناسه مشتری منحصر به فرد سازمان). برای مثال، تغییر واحد پول به $ از ارز محلی) و سپس بارگیری آن در یک یا چند جدول در انبار داده/دریاچه. گاهی اوقات تبدیل پس از بارگذاری آن داده انجام می شود و به آن ELT می گویند.
- خط لوله داده مجموعه ای از اتصالات و مراحل است که از طریق آن داده ها از یک مکان به مکان دیگر منتقل می شوند
- خوراک داده بلوکی از داده است که به صورت دوره ای از طریق فرآیندهای ETL وارد انبار داده می شود
چگونه به دانشمندان داده کمک می کند
- مدلهای ML/راهحلهای تحلیلی فقط برای یک بار ساخته نمیشوند، بلکه باید دائماً بهروزرسانی و بهروزرسانی شوند - برای این کار ML و خطوط لوله داده باید
- مفاهیم ETL داده را می توان در پیش پردازش ML به کار برد تا کدها و گردش های کاری آماده تولید را ایجاد کند که می تواند در حین اجرای ML استفاده شود.
- دانش فرآیندهای ETL میتواند به درک اصل و نسب دادهها و تفسیر درست دادهها کمک کند (مثلاً دانش دادههای «سن» در محل فروش به صورت دستی یا خودکار جمعآوری شده است و نقشهبرداری برای باندهای سنی قبل از ذخیرهسازی میتواند به طراحی بهتر مدلهای ML کمک کند)
تصویر 2
حاکمیت داده و کیفیت
آنچه دانشمندان داده ممکن است ندانند:
داده ها اساس همه راه حل های تحلیلی است، اگر حتی بخشی از مجموعه داده تغییر کند، به مدل های پایین دستی ایجاد شده و غیره کاملاً آسیب می رساند، اغلب هیچ بررسی برای بررسی منطقی سازگاری داده ها برای یک زمینه خاص وجود ندارد (مثلاً اگر درآمد ناگهانی به ازای هر مشتری باشد. از 100 دلار به 800 دلار افزایش مییابد، بدون اینکه تغییری در محیط کسبوکار ایجاد شود، سپس منجر به نمرات اشتباه ML و داشبوردهای نادرست میشود). بنابراین، یک تیم علم داده باید از نزدیک با تیم مدیریت داده و تیم مهندسی همکاری کند تا در تمام مسیرهای حیاتی بررسی کند تا اطمینان حاصل شود که همه مدلها و تحلیلها به طور مداوم دادههای مناسب را دریافت میکنند.
اصول کلیدی[IV]
- حاکمیت داده اصطلاح گستردهتری است که برای تعریف نحوه مدیریت سازمانها اهداف داده، دامنه، مالکیت، حریم خصوصی و امنیت از جمله فرآیندها و دادههای استاندارد استفاده میشود.
- کیفیت داده زیرمجموعه ای از حاکمیت داده است که بر نظارت مستمر داده ها برای کامل بودن، سازگاری و برنامه ریزی برای رسیدگی به بی نظمی های داده تمرکز دارد.
- به عنوان مثال - اگر یک سازمان مجبور باشد داده های رسانه های اجتماعی را دریافت کند، حاکمیت داده تمام ارزیابی ها و برنامه ریزی ها را تحت حاکمیت داده انجام می دهد و سپس داده های دریافتی را با استفاده از کیفیت داده ارزیابی می کند.
چگونه به دانشمندان داده کمک می کند
- کیفیت داده ها به ایجاد راه حل های تحلیلی قوی و حفظ اعتبار و اعتماد تیم های علم داده کمک می کند
- در صورت شناسایی پیشگیرانه و حل مشترک توسط تیم های فناوری اطلاعات، علوم داده و کسب و کار، از کار مجدد و تصمیمات تجاری اشتباه جلوگیری می کند.
- این مانند نظارت بر خروجی مدل است، اما در این مورد، داده های ورودی به انبار داده به دقت نظارت می شود تا برای هر گونه بی نظمی هشدار داده شود.
تصویر 3
قوانین و مقررات داده ها و اخلاق
آنچه دانشمندان داده ممکن است ندانند:
دادههای مورد استفاده ممکن است توسط قوانین محدود شده باشند و حتی مدلهای ML ایجاد شده ممکن است سوگیری داشته باشند و از دادهها به روشی ناخواسته استفاده کنند که گاهی با استانداردهای اخلاقی مطابقت ندارد. هرگونه پیامد قانونی یا رویداد تصویر برند ممکن است ناشی از کاری باشد که یک تیم علم داده انجام داده است. از آنجایی که تیم علم داده در مدیریت داده ها و راه حل های تجزیه و تحلیل آن داده ها پیشتاز بود، آنها مسئول تأثیر آن هستند. با کمال تعجب بسیاری از تیم های تحلیلی این را نمی دانند و برای آن آماده نیستند. ممکن است رضایت کاربر برای مورد استفاده ای که تیم DS برای آن استفاده کرده است، جمع آوری نشده باشد.
اصول کلیدی[V]
- مقررات دادهها به قوانین حاکم بر جمعآوری، افشا، ذخیرهسازی، استفاده و سپس پاکسازی دادهها در پایان چرخه استفاده آن اشاره دارد (مانند GDPR، CCPA).
- اخلاق داده به استفاده اخلاقی، شفافیت، عدم تعصب و استفاده درست از داده ها اشاره دارد (به عنوان مثال استفاده نکردن از داده های لایه های اجتماعی برای رد وام های مشتری حتی اگر آن قشر خاص ممکن است سابقه بازپرداخت بدی داشته باشد)
چگونه به دانشمندان داده کمک می کند
- از خطرات قانونی، نام تجاری و اعتباری ناشی از استفاده صحیح از داده ها جلوگیری می کند
- به توسعه مدل های مشتری پسند کمک می کند که می توانند به عنوان نمونه در سراسر سازمان عمل کنند
- مدیریت بهتر دسترسی به اشتراکگذاری دادههای حساس در بین تیمها برای جلوگیری از اشتراکگذاری دادهها در دستهای اشتباه و در نتیجه به طراحی بهتر استراتژی حاکمیت داده کمک میکند.
بستن اندیشه
پشته تجزیه و تحلیل: همه را با هم جمع می کند - تمام عناصر (4 مورد ذکر شده در اینجا) را در یک موجودیت واحد که تیم تجزیه و تحلیل برای تولید نتایج مصرف می کند ترکیب می کند. به طور معمول، با برخی تغییرات مانند زیر است.
تصویر 4
یک تیم علم داده باید بر روی این چهار عامل تمرکز کند تا یک روش انعطافپذیر و پایدار ایجاد کند و با کیفیت بالا به کسب و کار ارزش افزوده ادامه دهد.
منابع
[I] https://www.talend.com/resources/data-lake-vs-data-warehouse/
[II] https://towardsdatascience.com/data-warehouse-68ec63eecf78
[III] https://www.snowflake.com/guides/etl-pipeline
[IV] https://www.collibra.com/blog/data-quality-vs-data-governance
[V] https://www.datascience-pm.com/10-data-science-ethics-questions/
منابع تصویر-
- Image 1: https://medium.com/co-learning-lounge/job-roles-in-data-science-10e790ea21b5
- Image 2: https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-architecture-on-cloud-4d59efc092b5
- تصویر 3: https://www.edq.com/blog/data-quality-vs-data-governance/
- تصویر 4: https://www.tellius.com/the-modern-data-analytics-stack/
ماده توسط اشوین کومار | Data Science Lead & Crusader | لینکدین
رسانه های نشان داده شده در این مقاله متعلق به Analytics Vidhya نیستند و به صلاحدید نویسنده استفاده می شوند.
- &
- دسترسی
- اضافی
- خشت
- AI
- معرفی
- تحلیل
- علم تجزیه و تحلیل
- مقاله
- خودکار
- بهترین
- ساختن
- کسب و کار
- CCPA
- تغییر دادن
- چک
- ابر
- رمز
- اعتماد به نفس
- اتصالات
- رضایت
- مصرف کنندگان
- اعتبار
- کارت اعتباری
- واحد پول
- داده ها
- کیفیت داده
- علم اطلاعات
- دانشمند داده
- به اشتراک گذاری داده ها
- انبار داده
- انبارهای داده
- پایگاه داده
- طرح
- توسعه
- DID
- اصل افشا
- کشف
- رانده
- بهره وری
- مهندسی
- مورد تأیید
- محیط
- و غیره
- اصول اخلاق
- مالی
- خدمات مالی
- تمرکز
- فرم
- قالب
- پایه
- اصول
- GDPR
- جنس
- خوب
- حکومت
- اداره
- بهداشت و درمان
- اینجا کلیک نمایید
- زیاد
- تاریخ
- چگونه
- HTTPS
- شناسایی
- تصویر
- تأثیر
- از جمله
- افزایش
- صنعت
- اطلاعات
- بینش
- ادغام
- گرفتار
- IT
- پرش
- دانش
- رهبری
- یادگیری
- قانونی
- لینک
- بار
- وام
- محلی
- محل
- مدیریت
- نقشه
- رسانه ها
- اعضا
- ML
- مدل
- نظارت بر
- حرکت می کند
- برنامه ریزی
- نقطه فروش
- خلوت
- برنامه
- پروژه
- پروژه ها
- کیفیت
- خام
- داده های خام
- كاهش دادن
- مقررات
- نتایج
- درامد
- خطر
- قوانین
- فروش
- علم
- دانشمندان
- تیم امنیت لاتاری
- سلسله
- خدمات
- تنظیم
- اشتراک گذاری
- So
- آگاهی
- رسانه های اجتماعی
- مزایا
- ورزش ها
- استانداردهای
- ماندن
- ذخیره سازی
- opbevare
- استراتژی
- زمان
- معاملات
- دگرگونی
- تبدیل شدن
- شفافیت
- ارزش
- چشم انداز
- انبار کالا
- سایت اینترنتی
- چه شده است
- WHO
- مهاجرت کاری