یادگیری علم داده و یادگیری ماشین: مراحل اول

گره منبع: 1057122

یادگیری علم داده و یادگیری ماشین: مراحل اول

فقط شروع به یادگیری علم داده ممکن است به همان اندازه دلهره آور به نظر برسد (اگر نه بیشتر از) تلاش برای یافتن اولین شغل خود در این زمینه. با توجه به گزینه ها و منابع بسیار آنلاین و در دانشگاه های سنتی، این پیش نیازها و پیش کارها قبل از غواصی عمیق در علم داده و AI/ML توصیه می شود.


By هارشیت تیاگی, مدرس علم داده | مربی | یوتیوبر.

منبع: https://www.wiplane.com/p/foundations-for-data-science-ml

در آغاز سال جاری، من نقشه ذهنی را در این زمینه منتشر کردم نقشه راه یادگیری علوم داده (در زیر نشان داده شده است). نقشه راه به طور گسترده ای پذیرفته شد، آن مقاله به زبان های مختلف ترجمه شد و تعداد زیادی از مردم از من برای انتشار آن تشکر کردند.

همه چیز خوب بود تا اینکه تعدادی از مشتاقان به این نکته اشاره کردند که منابع زیادی وجود دارد و بسیاری از آنها گران هستند. برنامه نویسی پایتون تنها شاخه ای بود که تعدادی دوره واقعا خوب داشت، اما برای مبتدیان دقیقاً به همین جا ختم می شود.

چند سوال مهم در مورد علم داده بنیادی برای من جالب بود:

  • پس از یادگیری نحوه کدنویسی چه باید کرد؟ آیا موضوعاتی وجود دارد که به شما کمک می کند پایه های خود را برای علم داده تقویت کنید؟
  • من از ریاضی متنفرم و برای من یا آموزش های خیلی ابتدایی یا خیلی عمیق وجود دارد. آیا می توانید یک دوره فشرده و در عین حال جامع در زمینه ریاضیات و آمار توصیه کنید؟
  • چقدر ریاضی برای شروع یادگیری نحوه کار الگوریتم های ML کافی است؟
  • برخی از موضوعات آماری ضروری برای شروع تجزیه و تحلیل داده یا علم داده چیست؟

پاسخ به بسیاری از این سوالات را می توان در کتاب یافت یادگیری عمیق توسط یان گودفلو و یوشوا بنژیو. اما این کتاب برای بسیاری کمی بیش از حد فنی و ریاضی سنگین است.

بنابراین در اینجا اصل این مقاله، اولین گام ها برای یادگیری علم داده یا ML است.

سه ستون علم داده و ML

منبع: https://wiplane.com

اگر پیش نیازها یا پیش کار هر دوره ML/DS را مرور کنید، ترکیبی از برنامه نویسی، ریاضی و آمار را خواهید یافت.

فعلاً فراموش کردن دیگران، اینجاست گوگل توصیه می کند که قبل از انجام یک دوره آموزشی ML انجام می دهید:

https://developers.google.com/machine-learning/crash-course/prereqs-and-prework (CC BY 4.0)

1. برنامه نویسی ضروری

بیشتر نقش‌های داده مبتنی بر برنامه‌نویسی هستند به جز چند مورد مانند هوش تجاری، تحلیل بازار، تحلیلگر محصول و غیره.

من قصد دارم بر روی مشاغل داده های فنی تمرکز کنم که به تخصص حداقل در یک زبان برنامه نویسی نیاز دارند. من شخصاً پایتون را به دلیل تطبیق پذیری و یادگیری آسان آن بر هر زبان دیگری ترجیح می‌دهم.

نگاهی اجمالی به موضوعات/کتابخانه هایی که باید برای علم داده تسلط داشته باشید:

  • ساختارهای متداول داده ها (انواع داده ها ، لیست ها ، دیکشنری ها ، مجموعه ها ، tuples) ، توابع نوشتن ، منطق ، جریان کنترل ، الگوریتم های جستجو و مرتب سازی ، برنامه نویسی شی گرا و کار با کتابخانه های خارجی.
  • نوشتن اسکریپت های پایتون برای استخراج، قالب بندی و ذخیره داده ها در فایل ها یا بازگشت به پایگاه های داده.
  • مدیریت آرایه های چند بعدی، نمایه سازی، برش، جابجایی، پخش و تولید اعداد شبه تصادفی با استفاده از NumPy.
  • انجام عملیات برداری با استفاده از کتابخانه های محاسباتی علمی مانند NumPy.
  • داده ها را با پانداها دستکاری کنید - سری، قاب داده، نمایه سازی در یک دیتا فریم، عملگرهای مقایسه، ادغام فریم های داده، نقشه برداری و اعمال توابع.
  • جدال داده ها با استفاده از پانداها – بررسی مقادیر تهی، تلفیق آن، گروه بندی داده ها، توصیف آن، انجام تجزیه و تحلیل اکتشافی و غیره.
  • تجسم داده ها با استفاده از Matplotlib - سلسله مراتب API، اضافه کردن سبک ها، رنگ ها و نشانگرها به یک نمودار، دانش در مورد نمودارهای مختلف و زمان استفاده از آنها، نمودارهای خطی، نمودارهای نواری، نمودارهای پراکندگی، هیستوگرام ها، نمودارهای جعبه، و seaborn برای ترسیم پیشرفته تر.

2. ریاضیات ضروری

وجود دارد دلایل عملی که چرا ریاضی ضروری است برای افرادی که خواهان شغلی به عنوان پزشک ML، دانشمند داده، یا مهندس یادگیری عمیق هستند.

#1 جبر خطی برای نمایش داده ها

تصویری از سخنرانی در مورد هنجارهای برداری از دوره: https://www.wiplane.com/p/foundations-for-data-science-ml

ML ذاتاً مبتنی بر داده است زیرا داده در قلب یادگیری ماشین قرار دارد. ما می توانیم داده ها را به عنوان بردارها - شیئی که به قوانین حسابی پایبند است. این ما را به درک چگونگی عملکرد قواعد جبر خطی بر روی آرایه های داده هدایت می کند.

شماره 2 حساب دیفرانسیل و انتگرال برای آموزش مدل های ML

تصویری از سخنرانی در مورد نزول گرادیان از دوره: https://www.wiplane.com/p/foundations-for-data-science-ml

اگر شما این تصور را دارید که آموزش مدل به طور خودکار انجام می شود، در اشتباه هستید. حساب دیفرانسیل و انتگرال چیزی است که یادگیری اکثر الگوریتم های ML و DL را هدایت می کند.

یکی از متداول‌ترین الگوریتم‌های بهینه‌سازینزول شیب- کاربرد مشتقات جزئی است.

مدل یک نمایش ریاضی از باورها و مفروضات خاص است. گفته می‌شود که فرآیند (خطی، چند جمله‌ای و غیره) نحوه تهیه داده‌ها را در وهله اول یاد می‌گیرد (تقریبی) و سپس بر اساس آن فرآیند آموخته شده پیش‌بینی می‌کند.

موضوعات مهم عبارتند از:

  • جبر پایه - متغیرها، ضرایب، معادلات، و توابع خطی، نمایی، لگاریتمی و غیره.
  • جبر خطی - اسکالرها، بردارها، تانسورها، هنجارها (L1 و L2)، حاصل ضرب نقطه‌ای، انواع ماتریس‌ها، تبدیل خطی، نمایش معادلات خطی در نمادگذاری ماتریس، حل مسئله رگرسیون خطی با استفاده از بردارها و ماتریس‌ها.
  • حساب دیفرانسیل و انتگرال - مشتقات و حدود، قوانین مشتق، قانون زنجیره ای (برای الگوریتم انتشار پس زمینه)، مشتقات جزئی (برای محاسبه گرادیان)، تحدب توابع، حداقل های محلی/جهانی، ریاضیات پشت یک مدل رگرسیون، ریاضی کاربردی برای آموزش یک مدل از ابتدا .

شماره 3 آمار اساسی

امروزه هر سازمانی در حال تلاش برای تبدیل شدن به داده محور است. برای دستیابی به آن، تحلیلگران و دانشمندان باید از داده‌های قرار داده شده برای استفاده به روش‌های مختلف استفاده کنند تا تصمیم‌گیری را هدایت کنند.

توصیف داده ها - از داده تا بینش

داده ها همیشه خام و زشت هستند. کاوش اولیه به شما می‌گوید چه چیزی کم است، داده‌ها چگونه توزیع می‌شوند و بهترین راه برای تمیز کردن آن برای رسیدن به هدف نهایی چیست.

برای پاسخ به سؤالات تعریف شده، آمار توصیفی شما را قادر می سازد تا هر مشاهده در داده های خود را به بینش های منطقی تبدیل کنید.

کمی سازی عدم قطعیت

علاوه بر این، توانایی کمی کردن عدم قطعیت با ارزش ترین مهارتی است که در هر شرکت داده بسیار مورد توجه قرار می گیرد. دانستن شانس موفقیت در هر آزمایش/تصمیم برای همه مشاغل بسیار حیاتی است.

در اینجا چند مورد از اصول اصلی آمار که حداقل حداقل را تشکیل می دهند آورده شده است:

تصویر از سخنرانی در مورد توزیع پواسون - https://www.wiplane.com/p/foundations-for-data-science-ml

  • تخمین های مکان - میانگین، میانه، و انواع دیگر آنها.
  • برآوردهای تغییرپذیری
  • همبستگی و کوواریانس
  • متغیرهای تصادفی - گسسته و پیوسته
  • توزیع داده ها - PMF، PDF، CDF
  • احتمال مشروط - آمار بیزی
  • توزیع های آماری رایج - گوسی، دو جمله ای، پواسون، نمایی
  • قضایای مهم - قانون اعداد بزرگ و قضیه حد مرکزی.

تصویر از سخنرانی در مورد توزیع پواسون - https://www.wiplane.com/p/foundations-for-data-science-ml

  • آمار استنباطییک شاخه کاربردی تر و پیشرفته تر از آمار که به طراحی آزمایش های آزمایش فرضیه کمک می کند، ما را به درک عمیق معنای متریک ها سوق می دهد و در عین حال به ما در تعیین کمیت اهمیت نتایج کمک می کند.
  • تست های مهمآزمون تی دانشجویی، آزمون کای اسکوئر، آزمون ANOVA و غیره.

هر مشتاق علوم داده در سطح مبتدی باید قبل از غوطه ور شدن در هر دوره علوم داده اصلی یا دوره اصلی ML روی این سه ستون تمرکز کند.

منابعی برای یادگیری موارد فوق - در جستجوی یک دوره فشرده، جامع و در عین حال مقرون به صرفه

https://www.freecodecamp.org/news/data-science-learning-roadmap/

نقشه راه یادگیری من همچنین به شما گفت که چه چیزی را یاد بگیرید، و همچنین مملو از منابع، دوره‌ها و برنامه‌هایی بود که شخص می‌تواند در آن ثبت‌نام کند.

اما چند تناقض در منابع توصیه شده و نقشه راهی که من ترسیم کرده بودم وجود دارد.

مشکلات با دوره های علوم داده یا ML

  1. هر دوره علوم داده ای که در آنجا ثبت نام کردم، دانش آموزان را ملزم می کرد که درک مناسبی از برنامه نویسی، ریاضیات یا آمار داشته باشند. مثلا، معروف ترین دوره آموزشی ML توسط اندرو نگ همچنین به شدت بر درک جبر برداری و حساب دیفرانسیل و انتگرال متکی است.
  2. اکثر دوره‌هایی که ریاضیات و آمار را برای علوم داده پوشش می‌دهند، فقط چک لیستی از مفاهیم مورد نیاز برای DS/ML هستند، بدون هیچ توضیحی در مورد نحوه اعمال و نحوه برنامه‌ریزی آنها در یک ماشین.
  3. منابع استثنایی برای غواصی عمیق در ریاضیات وجود دارد، اما بسیاری از ما برای آن ساخته نشده‌ایم، و برای یادگیری علم داده نیازی به مدال طلا بودن نداریم.

خط پایین: منبعی وجود ندارد که به اندازه کافی ریاضیات یا آمار یا برنامه نویسی کاربردی را برای شروع با علم داده یا ML پوشش دهد.

Wiplane Academy — wiplane.com

بنابراین، تصمیم گرفتم تسلیم شوم و همه این کارها را خودم انجام دهم. من 3 ماه گذشته را صرف توسعه یک برنامه درسی کرده ام که پایه محکمی برای حرفه شما به عنوان یک…

  • تحلیل گر داده ها
  • دانشمند داده ها
  • یا یک پزشک/مهندس ML

در اینجا من به شما ارائه می کنم مبانی علوم داده یا ML - اولین قدم برای یادگیری علم داده و ML

این من بودم که تصمیم گرفتم راه اندازی کنم!

دوره ای جامع و در عین حال فشرده و مقرون به صرفه که نه تنها آن را پوشش می دهد تمام ملزومات، پیش نیازها و پیش کارها بلکه نحوه استفاده از هر مفهوم را نیز توضیح می دهد به صورت محاسباتی و برنامه نویسی (پایتون).

و این تمام نیست. من محتوای دوره را هر ماه بر اساس نظرات شما به روز می کنم. بیشتر بدانید اینجا کلیک نمایید.

پیشنهاد اولیه پرنده!

من مشتاق هستم که پیش فروش این دوره را راه اندازی کنم زیرا در حال حاضر در حال ضبط و ویرایش آخرین بیت های 2 تا 3 ماژول هستم که تا هفته اول سپتامبر نیز به صورت زنده اجرا می شود.

پیشنهاد پرنده زودرس را بگیرید که فقط تا 30 آگوست 2021 معتبر است.

اصلی. مجدداً با اجازه دوباره ارسال شد.

بیوگرافی: هارشیت تیاگی یک مهندس با تجربه ادغام شده در فناوری های وب و علم داده (معروف به علم داده کامل) است که در حین طراحی مسیرهای یادگیری علوم داده و مهندسی ML، بیش از 1000 مشتاق علوم AI/Web/Data را راهنمایی کرده است. پیش از این، هارشیت الگوریتم‌های پردازش داده‌ها را با دانشمندان محقق در Yale، MIT و UCLA توسعه داده بود.

مرتبط:

منبع: https://www.kdnuggets.com/2021/08/learn-data-science-machine-learning.html

تمبر زمان:

بیشتر از kdnuggets