یادگیری علم داده و یادگیری ماشین: مراحل اول
فقط شروع به یادگیری علم داده ممکن است به همان اندازه دلهره آور به نظر برسد (اگر نه بیشتر از) تلاش برای یافتن اولین شغل خود در این زمینه. با توجه به گزینه ها و منابع بسیار آنلاین و در دانشگاه های سنتی، این پیش نیازها و پیش کارها قبل از غواصی عمیق در علم داده و AI/ML توصیه می شود.
By هارشیت تیاگی, مدرس علم داده | مربی | یوتیوبر.
منبع: https://www.wiplane.com/p/foundations-for-data-science-ml
در آغاز سال جاری، من نقشه ذهنی را در این زمینه منتشر کردم نقشه راه یادگیری علوم داده (در زیر نشان داده شده است). نقشه راه به طور گسترده ای پذیرفته شد، آن مقاله به زبان های مختلف ترجمه شد و تعداد زیادی از مردم از من برای انتشار آن تشکر کردند.
همه چیز خوب بود تا اینکه تعدادی از مشتاقان به این نکته اشاره کردند که منابع زیادی وجود دارد و بسیاری از آنها گران هستند. برنامه نویسی پایتون تنها شاخه ای بود که تعدادی دوره واقعا خوب داشت، اما برای مبتدیان دقیقاً به همین جا ختم می شود.
چند سوال مهم در مورد علم داده بنیادی برای من جالب بود:
- پس از یادگیری نحوه کدنویسی چه باید کرد؟ آیا موضوعاتی وجود دارد که به شما کمک می کند پایه های خود را برای علم داده تقویت کنید؟
- من از ریاضی متنفرم و برای من یا آموزش های خیلی ابتدایی یا خیلی عمیق وجود دارد. آیا می توانید یک دوره فشرده و در عین حال جامع در زمینه ریاضیات و آمار توصیه کنید؟
- چقدر ریاضی برای شروع یادگیری نحوه کار الگوریتم های ML کافی است؟
- برخی از موضوعات آماری ضروری برای شروع تجزیه و تحلیل داده یا علم داده چیست؟
پاسخ به بسیاری از این سوالات را می توان در کتاب یافت یادگیری عمیق توسط یان گودفلو و یوشوا بنژیو. اما این کتاب برای بسیاری کمی بیش از حد فنی و ریاضی سنگین است.
بنابراین در اینجا اصل این مقاله، اولین گام ها برای یادگیری علم داده یا ML است.
سه ستون علم داده و ML
منبع: https://wiplane.com
اگر پیش نیازها یا پیش کار هر دوره ML/DS را مرور کنید، ترکیبی از برنامه نویسی، ریاضی و آمار را خواهید یافت.
فعلاً فراموش کردن دیگران، اینجاست گوگل توصیه می کند که قبل از انجام یک دوره آموزشی ML انجام می دهید:
https://developers.google.com/machine-learning/crash-course/prereqs-and-prework (CC BY 4.0)
1. برنامه نویسی ضروری
بیشتر نقشهای داده مبتنی بر برنامهنویسی هستند به جز چند مورد مانند هوش تجاری، تحلیل بازار، تحلیلگر محصول و غیره.
من قصد دارم بر روی مشاغل داده های فنی تمرکز کنم که به تخصص حداقل در یک زبان برنامه نویسی نیاز دارند. من شخصاً پایتون را به دلیل تطبیق پذیری و یادگیری آسان آن بر هر زبان دیگری ترجیح میدهم.
نگاهی اجمالی به موضوعات/کتابخانه هایی که باید برای علم داده تسلط داشته باشید:
- ساختارهای متداول داده ها (انواع داده ها ، لیست ها ، دیکشنری ها ، مجموعه ها ، tuples) ، توابع نوشتن ، منطق ، جریان کنترل ، الگوریتم های جستجو و مرتب سازی ، برنامه نویسی شی گرا و کار با کتابخانه های خارجی.
- نوشتن اسکریپت های پایتون برای استخراج، قالب بندی و ذخیره داده ها در فایل ها یا بازگشت به پایگاه های داده.
- مدیریت آرایه های چند بعدی، نمایه سازی، برش، جابجایی، پخش و تولید اعداد شبه تصادفی با استفاده از NumPy.
- انجام عملیات برداری با استفاده از کتابخانه های محاسباتی علمی مانند NumPy.
- داده ها را با پانداها دستکاری کنید - سری، قاب داده، نمایه سازی در یک دیتا فریم، عملگرهای مقایسه، ادغام فریم های داده، نقشه برداری و اعمال توابع.
- جدال داده ها با استفاده از پانداها – بررسی مقادیر تهی، تلفیق آن، گروه بندی داده ها، توصیف آن، انجام تجزیه و تحلیل اکتشافی و غیره.
- تجسم داده ها با استفاده از Matplotlib - سلسله مراتب API، اضافه کردن سبک ها، رنگ ها و نشانگرها به یک نمودار، دانش در مورد نمودارهای مختلف و زمان استفاده از آنها، نمودارهای خطی، نمودارهای نواری، نمودارهای پراکندگی، هیستوگرام ها، نمودارهای جعبه، و seaborn برای ترسیم پیشرفته تر.
2. ریاضیات ضروری
وجود دارد دلایل عملی که چرا ریاضی ضروری است برای افرادی که خواهان شغلی به عنوان پزشک ML، دانشمند داده، یا مهندس یادگیری عمیق هستند.
#1 جبر خطی برای نمایش داده ها
تصویری از سخنرانی در مورد هنجارهای برداری از دوره: https://www.wiplane.com/p/foundations-for-data-science-ml
ML ذاتاً مبتنی بر داده است زیرا داده در قلب یادگیری ماشین قرار دارد. ما می توانیم داده ها را به عنوان بردارها - شیئی که به قوانین حسابی پایبند است. این ما را به درک چگونگی عملکرد قواعد جبر خطی بر روی آرایه های داده هدایت می کند.
شماره 2 حساب دیفرانسیل و انتگرال برای آموزش مدل های ML
تصویری از سخنرانی در مورد نزول گرادیان از دوره: https://www.wiplane.com/p/foundations-for-data-science-ml
اگر شما این تصور را دارید که آموزش مدل به طور خودکار انجام می شود، در اشتباه هستید. حساب دیفرانسیل و انتگرال چیزی است که یادگیری اکثر الگوریتم های ML و DL را هدایت می کند.
یکی از متداولترین الگوریتمهای بهینهسازینزول شیب- کاربرد مشتقات جزئی است.
مدل یک نمایش ریاضی از باورها و مفروضات خاص است. گفته میشود که فرآیند (خطی، چند جملهای و غیره) نحوه تهیه دادهها را در وهله اول یاد میگیرد (تقریبی) و سپس بر اساس آن فرآیند آموخته شده پیشبینی میکند.
موضوعات مهم عبارتند از:
- جبر پایه - متغیرها، ضرایب، معادلات، و توابع خطی، نمایی، لگاریتمی و غیره.
- جبر خطی - اسکالرها، بردارها، تانسورها، هنجارها (L1 و L2)، حاصل ضرب نقطهای، انواع ماتریسها، تبدیل خطی، نمایش معادلات خطی در نمادگذاری ماتریس، حل مسئله رگرسیون خطی با استفاده از بردارها و ماتریسها.
- حساب دیفرانسیل و انتگرال - مشتقات و حدود، قوانین مشتق، قانون زنجیره ای (برای الگوریتم انتشار پس زمینه)، مشتقات جزئی (برای محاسبه گرادیان)، تحدب توابع، حداقل های محلی/جهانی، ریاضیات پشت یک مدل رگرسیون، ریاضی کاربردی برای آموزش یک مدل از ابتدا .
شماره 3 آمار اساسی
امروزه هر سازمانی در حال تلاش برای تبدیل شدن به داده محور است. برای دستیابی به آن، تحلیلگران و دانشمندان باید از دادههای قرار داده شده برای استفاده به روشهای مختلف استفاده کنند تا تصمیمگیری را هدایت کنند.
توصیف داده ها - از داده تا بینش
داده ها همیشه خام و زشت هستند. کاوش اولیه به شما میگوید چه چیزی کم است، دادهها چگونه توزیع میشوند و بهترین راه برای تمیز کردن آن برای رسیدن به هدف نهایی چیست.
برای پاسخ به سؤالات تعریف شده، آمار توصیفی شما را قادر می سازد تا هر مشاهده در داده های خود را به بینش های منطقی تبدیل کنید.
کمی سازی عدم قطعیت
علاوه بر این، توانایی کمی کردن عدم قطعیت با ارزش ترین مهارتی است که در هر شرکت داده بسیار مورد توجه قرار می گیرد. دانستن شانس موفقیت در هر آزمایش/تصمیم برای همه مشاغل بسیار حیاتی است.
در اینجا چند مورد از اصول اصلی آمار که حداقل حداقل را تشکیل می دهند آورده شده است:
تصویر از سخنرانی در مورد توزیع پواسون - https://www.wiplane.com/p/foundations-for-data-science-ml
- تخمین های مکان - میانگین، میانه، و انواع دیگر آنها.
- برآوردهای تغییرپذیری
- همبستگی و کوواریانس
- متغیرهای تصادفی - گسسته و پیوسته
- توزیع داده ها - PMF، PDF، CDF
- احتمال مشروط - آمار بیزی
- توزیع های آماری رایج - گوسی، دو جمله ای، پواسون، نمایی
- قضایای مهم - قانون اعداد بزرگ و قضیه حد مرکزی.
تصویر از سخنرانی در مورد توزیع پواسون - https://www.wiplane.com/p/foundations-for-data-science-ml
- آمار استنباطی - یک شاخه کاربردی تر و پیشرفته تر از آمار که به طراحی آزمایش های آزمایش فرضیه کمک می کند، ما را به درک عمیق معنای متریک ها سوق می دهد و در عین حال به ما در تعیین کمیت اهمیت نتایج کمک می کند.
- تست های مهم - آزمون تی دانشجویی، آزمون کای اسکوئر، آزمون ANOVA و غیره.
هر مشتاق علوم داده در سطح مبتدی باید قبل از غوطه ور شدن در هر دوره علوم داده اصلی یا دوره اصلی ML روی این سه ستون تمرکز کند.
منابعی برای یادگیری موارد فوق - در جستجوی یک دوره فشرده، جامع و در عین حال مقرون به صرفه
https://www.freecodecamp.org/news/data-science-learning-roadmap/
نقشه راه یادگیری من همچنین به شما گفت که چه چیزی را یاد بگیرید، و همچنین مملو از منابع، دورهها و برنامههایی بود که شخص میتواند در آن ثبتنام کند.
اما چند تناقض در منابع توصیه شده و نقشه راهی که من ترسیم کرده بودم وجود دارد.
مشکلات با دوره های علوم داده یا ML
- هر دوره علوم داده ای که در آنجا ثبت نام کردم، دانش آموزان را ملزم می کرد که درک مناسبی از برنامه نویسی، ریاضیات یا آمار داشته باشند. مثلا، معروف ترین دوره آموزشی ML توسط اندرو نگ همچنین به شدت بر درک جبر برداری و حساب دیفرانسیل و انتگرال متکی است.
- اکثر دورههایی که ریاضیات و آمار را برای علوم داده پوشش میدهند، فقط چک لیستی از مفاهیم مورد نیاز برای DS/ML هستند، بدون هیچ توضیحی در مورد نحوه اعمال و نحوه برنامهریزی آنها در یک ماشین.
- منابع استثنایی برای غواصی عمیق در ریاضیات وجود دارد، اما بسیاری از ما برای آن ساخته نشدهایم، و برای یادگیری علم داده نیازی به مدال طلا بودن نداریم.
خط پایین: منبعی وجود ندارد که به اندازه کافی ریاضیات یا آمار یا برنامه نویسی کاربردی را برای شروع با علم داده یا ML پوشش دهد.
Wiplane Academy — wiplane.com
بنابراین، تصمیم گرفتم تسلیم شوم و همه این کارها را خودم انجام دهم. من 3 ماه گذشته را صرف توسعه یک برنامه درسی کرده ام که پایه محکمی برای حرفه شما به عنوان یک…
- تحلیل گر داده ها
- دانشمند داده ها
- یا یک پزشک/مهندس ML
در اینجا من به شما ارائه می کنم مبانی علوم داده یا ML - اولین قدم برای یادگیری علم داده و ML
این من بودم که تصمیم گرفتم راه اندازی کنم!
دوره ای جامع و در عین حال فشرده و مقرون به صرفه که نه تنها آن را پوشش می دهد تمام ملزومات، پیش نیازها و پیش کارها بلکه نحوه استفاده از هر مفهوم را نیز توضیح می دهد به صورت محاسباتی و برنامه نویسی (پایتون).
و این تمام نیست. من محتوای دوره را هر ماه بر اساس نظرات شما به روز می کنم. بیشتر بدانید اینجا کلیک نمایید.
پیشنهاد اولیه پرنده!
من مشتاق هستم که پیش فروش این دوره را راه اندازی کنم زیرا در حال حاضر در حال ضبط و ویرایش آخرین بیت های 2 تا 3 ماژول هستم که تا هفته اول سپتامبر نیز به صورت زنده اجرا می شود.
پیشنهاد پرنده زودرس را بگیرید که فقط تا 30 آگوست 2021 معتبر است.
اصلی. مجدداً با اجازه دوباره ارسال شد.
بیوگرافی: هارشیت تیاگی یک مهندس با تجربه ادغام شده در فناوری های وب و علم داده (معروف به علم داده کامل) است که در حین طراحی مسیرهای یادگیری علوم داده و مهندسی ML، بیش از 1000 مشتاق علوم AI/Web/Data را راهنمایی کرده است. پیش از این، هارشیت الگوریتمهای پردازش دادهها را با دانشمندان محقق در Yale، MIT و UCLA توسعه داده بود.
مرتبط:
داستانهای برتر 30 روز گذشته | |||||
---|---|---|---|---|---|
|
|
منبع: https://www.kdnuggets.com/2021/08/learn-data-science-machine-learning.html
- "
- &
- 2021
- AI
- الگوریتم
- الگوریتم
- معرفی
- تحلیل
- روانکاو
- API
- کاربرد
- مقاله
- اوت
- بهترین
- پرنده
- بیت
- کسب و کار
- هوش تجاری
- کسب و کار
- کاریابی
- شانس
- بررسی
- رمز
- مشترک
- شرکت
- محاسبه
- محاسبه
- محتوا
- داده ها
- تحلیل داده ها
- پردازش داده ها
- علم اطلاعات
- دانشمند داده
- پایگاه های داده
- تصمیم گیری
- یادگیری عمیق
- مشتقات
- توسعه دهنده
- مدیر
- در اوایل
- به پایان می رسد
- مهندس
- مهندسی
- ملزومات
- و غیره
- تجربه
- اکتشاف
- نام خانوادگی
- جریان
- تمرکز
- قالب
- طلا
- خوب
- گوگل
- GPU ها
- اینجا کلیک نمایید
- چگونه
- چگونه
- HTTPS
- تصویر
- بینش
- اطلاعات
- مصاحبه
- IT
- کار
- شغل ها
- دانش
- زبان
- زبان ها
- بزرگ
- راه اندازی
- قانون
- یاد گرفتن
- آموخته
- یادگیری
- لاین
- لینک
- لیست
- محل
- فراگیری ماشین
- ساخت
- نقشه
- بازار
- تحلیل بازار
- ریاضی
- متوسط
- متریک
- MIT
- ML
- الگوریتم های ML
- مدل
- ماه
- زبان طبیعی
- پردازش زبان طبیعی
- عصبی
- nlp
- تعداد
- ارائه
- آنلاین
- باز کن
- منبع باز
- عملیات
- گزینه
- سفارش
- دیگر
- دیگران
- پیش بینی
- در حال حاضر
- محصول
- برنامه نويسي
- برنامه ها
- پروژه ها
- انتشار
- پــایتــون
- خام
- دلایل
- رگرسیون
- تحقیق
- منابع
- منابع
- نتایج
- قوانین
- علم
- دانشمندان
- جستجو
- حس
- سلسله
- So
- شروع
- آغاز شده
- ارقام
- opbevare
- داستان
- موفقیت
- فنی
- فن آوری
- می گوید
- آزمون
- تست
- زمان
- بالا
- تاپیک
- آموزش
- دگرگونی
- آموزش
- UCLA
- us
- تجسم
- وب
- هفته
- WHO
- مهاجرت کاری
- نوشته
- X
- سال
- یوتیوب