ڈیٹا سائنس اور مشین لرننگ سیکھنا: پہلا مرحلہ

ماخذ نوڈ: 1057122

ڈیٹا سائنس اور مشین لرننگ سیکھنا: پہلا مرحلہ

صرف ڈیٹا سائنس سیکھنا اتنا ہی مشکل لگ سکتا ہے جتنا (اگر اس سے زیادہ نہیں) فیلڈ میں آپ کی پہلی نوکری کو اترنے کی کوشش کرنا۔ آن لائن اور روایتی تعلیمی اداروں میں بہت سارے اختیارات اور وسائل کے ساتھ، ڈیٹا سائنس اور AI/ML میں گہرائی میں ڈوبنے سے پہلے ان پیشگی ضروریات اور پیشگی کام کی سفارش کی جاتی ہے۔


By ہرشیت تیاگی, ڈیٹا سائنس انسٹرکٹر | سرپرست | YouTuber.

ماخذ: https://www.wiplane.com/p/foundations-for-data-science-ml

اس سال کے آغاز میں، میں نے ایک ذہن کا نقشہ شائع کیا۔ ڈیٹا سائنس سیکھنے کا روڈ میپ (نیچے دکھایا گیا ہے). روڈ میپ کو بڑے پیمانے پر قبول کیا گیا، اس مضمون کا مختلف زبانوں میں ترجمہ ہوا، اور لوگوں کی ایک بڑی تعداد نے اسے شائع کرنے پر میرا شکریہ ادا کیا۔

سب کچھ اچھا تھا یہاں تک کہ چند خواہشمندوں نے نشاندہی کی کہ وسائل بہت زیادہ ہیں اور ان میں سے بہت سے مہنگے ہیں۔ Python پروگرامنگ وہ واحد برانچ تھی جس میں بہت سے اچھے کورسز تھے، لیکن یہ ابتدائی افراد کے لیے وہیں ختم ہوتا ہے۔

فاؤنڈیشنل ڈیٹا سائنس پر چند اہم سوالات نے مجھے متاثر کیا:

  • کوڈ سیکھنے کے بعد کیا کرنا چاہیے؟ کیا ایسے عنوانات ہیں جو آپ کو ڈیٹا سائنس کے لیے اپنی بنیادوں کو مضبوط کرنے میں مدد کرتے ہیں؟
  • مجھے ریاضی سے نفرت ہے، اور میرے لیے یا تو بہت بنیادی سبق ہیں یا بہت گہرے۔ کیا آپ ریاضی اور شماریات پر ایک کمپیکٹ لیکن جامع کورس تجویز کر سکتے ہیں؟
  • ML الگورتھم کیسے کام کرتے ہیں یہ سیکھنا شروع کرنے کے لیے کتنی ریاضی کافی ہے؟
  • اعداد و شمار کے تجزیہ یا ڈیٹا سائنس کے ساتھ شروع کرنے کے لیے اعداد و شمار کے کچھ ضروری موضوعات کیا ہیں؟

ان میں سے بہت سے سوالات کے جوابات کتاب میں مل سکتے ہیں۔ گہری سیکھنا ایان گڈ فیلو اور یوشوا بینجیو کی طرف سے۔ لیکن وہ کتاب بہت زیادہ تکنیکی اور بہت سے لوگوں کے لیے ریاضی کے لحاظ سے بھاری ہے۔

تو یہاں اس مضمون کا نچوڑ ہے، ڈیٹا سائنس یا ML سیکھنے کے پہلے اقدامات۔

ڈیٹا سائنس اور ایم ایل کے تین ستون

ماخذ: https://wiplane.com

اگر آپ کسی بھی ML/DS کورس کی پیشگی ضروریات یا پری کام سے گزرتے ہیں، تو آپ کو پروگرامنگ، ریاضی اور اعدادوشمار کا مجموعہ ملے گا۔

ابھی کے لئے دوسروں کے بارے میں بھولنا، یہاں کیا ہے گوگل تجویز کرتا ہے۔ جو آپ ایم ایل کورس کرنے سے پہلے کرتے ہیں:

https://developers.google.com/machine-learning/crash-course/prereqs-and-prework (4.0 کی طرف سے CC)

1. ضروری پروگرامنگ

زیادہ تر ڈیٹا رولز پروگرامنگ پر مبنی ہوتے ہیں سوائے چند ایک جیسے کاروباری ذہانت، مارکیٹ تجزیہ، پروڈکٹ تجزیہ کار وغیرہ۔

میں تکنیکی ڈیٹا کی ملازمتوں پر توجہ مرکوز کرنے جا رہا ہوں جن کے لیے کم از کم ایک پروگرامنگ زبان میں مہارت درکار ہوتی ہے۔ میں ذاتی طور پر کسی بھی دوسری زبان پر ازگر کو ترجیح دیتا ہوں کیونکہ اس کی استعداد اور سیکھنے میں آسانی کی وجہ سے - ہاتھ سے نیچے، آخر سے آخر تک کے منصوبوں کو تیار کرنے کے لیے ایک اچھا انتخاب۔

عنوانات/لائبریریوں کی ایک جھلک جن میں ڈیٹا سائنس میں مہارت حاصل کرنا ضروری ہے:

  • عام ڈیٹا ڈھانچے (ڈیٹا کی قسمیں، فہرستیں، لغات، سیٹ، ٹوپلس)، تحریری افعال، منطق، کنٹرول بہاؤ، تلاش اور ترتیب دینے والے الگورتھم، آبجیکٹ پر مبنی پروگرامنگ، اور بیرونی لائبریریوں کے ساتھ کام کرنا۔
  • فائلوں میں ڈیٹا کو نکالنے، فارمیٹ کرنے اور ذخیرہ کرنے کے لیے ازگر کی اسکرپٹ لکھنا یا ڈیٹا بیس میں واپس کرنا۔
  • NumPy کا استعمال کرتے ہوئے کثیر جہتی صفوں کو ہینڈل کرنا، انڈیکسنگ، سلائسنگ، ٹرانسپوزنگ، براڈکاسٹنگ اور سیوڈورنڈم نمبر جنریشن۔
  • NumPy جیسی سائنسی کمپیوٹنگ لائبریریوں کا استعمال کرتے ہوئے ویکٹرائزڈ آپریشنز کرنا۔
  • پانڈوں کے ساتھ ڈیٹا میں ہیرا پھیری کریں— سیریز، ڈیٹا فریم، ڈیٹا فریم میں اشاریہ سازی، موازنہ آپریٹرز، ڈیٹا فریمز کو ضم کرنا، نقشہ سازی، اور فنکشنز کا اطلاق۔
  • پانڈوں کا استعمال کرتے ہوئے ڈیٹا کو گھماؤ - کالعدم اقدار کی جانچ کرنا، اس پر اثر ڈالنا، ڈیٹا کو گروپ کرنا، اسے بیان کرنا، تحقیقی تجزیہ کرنا وغیرہ۔
  • Matplotlib کا استعمال کرتے ہوئے ڈیٹا ویژولائزیشن— API کا درجہ بندی، ایک پلاٹ میں سٹائل، رنگ، اور مارکر شامل کرنا، مختلف پلاٹوں کا علم اور انہیں کب استعمال کرنا ہے، لائن پلاٹ، بار پلاٹ، سکیٹر پلاٹ، ہسٹوگرام، باکس پلاٹ، اور سیبورن مزید جدید پلاٹ بنانے کے لیے۔

2. ضروری ریاضی

وہاں ہے عملی وجوہات کیوں کہ ریاضی ضروری ہے۔ ان لوگوں کے لیے جو ایم ایل پریکٹیشنر، ڈیٹا سائنٹسٹ، یا ڈیپ لرننگ انجینئر کے طور پر اپنا کیریئر چاہتے ہیں۔

ڈیٹا کی نمائندگی کرنے کے لیے #1 لکیری الجبرا

کورس کے ویکٹر نارمز پر لیکچر کی ایک تصویر: https://www.wiplane.com/p/foundations-for-data-science-ml

ML فطری طور پر ڈیٹا پر مبنی ہے کیونکہ ڈیٹا مشین لرننگ کا مرکز ہے۔ ہم ڈیٹا کے بارے میں سوچ سکتے ہیں۔ ویکٹرز - ایک شے جو ریاضی کے اصولوں پر عمل کرتی ہے۔ اس سے ہمیں یہ سمجھنے میں مدد ملتی ہے کہ لکیری الجبرا کے اصول ڈیٹا کی صفوں پر کیسے کام کرتے ہیں۔

ایم ایل ماڈلز کو تربیت دینے کے لیے #2 کیلکولس

کورس سے تدریجی نزول پر لیکچر کی ایک تصویر: https://www.wiplane.com/p/foundations-for-data-science-ml

اگر آپ اس تاثر میں ہیں کہ ماڈل ٹریننگ "خود بخود" ہوتی ہے، تو آپ غلط ہیں۔ کیلکولس وہ ہے جو زیادہ تر ML اور DL الگورتھم کے سیکھنے کو آگے بڑھاتا ہے۔

سب سے زیادہ استعمال ہونے والے اصلاحی الگورتھم میں سے ایک۔تدریجی نزول- جزوی مشتقات کا اطلاق ہے۔

ایک ماڈل کچھ عقائد اور مفروضوں کی ریاضیاتی نمائندگی ہے۔ اس کے بارے میں کہا جاتا ہے کہ ڈیٹا کس طرح فراہم کیا جاتا ہے، اس کے عمل (لکیری، کثیر الثانی، وغیرہ) کو سیکھنا (تقریباً) سیکھنا، اور پھر اس سیکھے ہوئے عمل کی بنیاد پر پیشین گوئیاں کرنا۔

اہم موضوعات میں شامل ہیں:

  • بنیادی الجبرا — متغیرات، کوفیشینٹس، مساوات، اور لکیری، ایکسپونینشل، لوگاریتھمک افعال وغیرہ۔
  • لکیری الجبرا - اسکیلرز، ویکٹرز، ٹینسر، نارمز (L1 اور L2)، ڈاٹ پروڈکٹ، میٹرکس کی اقسام، لکیری تبدیلی، میٹرکس اشارے میں لکیری مساوات کی نمائندگی کرنا، ویکٹرز اور میٹرکس کا استعمال کرتے ہوئے لکیری ریگریشن کا مسئلہ حل کرنا۔
  • کیلکولس — مشتقات اور حدود، مشتق قواعد، سلسلہ اصول (بیک پروپیگیشن الگورتھم کے لیے)، جزوی مشتقات (گریڈینٹس کی گنتی کے لیے)، افعال کا محدب، مقامی/عالمی منیما، ریگریشن ماڈل کے پیچھے ریاضی، ماڈل کو شروع سے تربیت دینے کے لیے ریاضی کا اطلاق .

#3 ضروری شماریات

آج ہر ادارہ ڈیٹا پر مبنی بننے کی کوشش کر رہا ہے۔ اس کو حاصل کرنے کے لیے، تجزیہ کاروں اور سائنسدانوں کو فیصلہ سازی کو آگے بڑھانے کے لیے مختلف طریقوں سے استعمال کرنے کے لیے ڈیٹا کو استعمال کرنے کی ضرورت ہے۔

ڈیٹا کو بیان کرنا — ڈیٹا سے لے کر بصیرت تک

ڈیٹا ہمیشہ خام اور بدصورت آتا ہے۔ ابتدائی تلاش آپ کو بتاتی ہے کہ کیا غائب ہے، ڈیٹا کیسے تقسیم کیا جاتا ہے، اور آخری مقصد کو پورا کرنے کے لیے اسے صاف کرنے کا بہترین طریقہ کیا ہے۔

وضاحتی سوالات کے جوابات دینے کے لیے، وضاحتی اعدادوشمار آپ کو اپنے ڈیٹا میں ہر مشاہدے کو ان بصیرت میں تبدیل کرنے کے قابل بناتے ہیں جو معنی خیز ہیں۔

غیر یقینی صورتحال کا اندازہ لگانا

مزید برآں، غیر یقینی صورتحال کو درست کرنے کی صلاحیت سب سے قیمتی مہارت ہے جسے کسی بھی ڈیٹا کمپنی میں بہت زیادہ اہمیت دی جاتی ہے۔ کسی بھی تجربے/فیصلے میں کامیابی کے امکانات کو جاننا تمام کاروباروں کے لیے بہت اہم ہے۔

یہاں اعداد و شمار کے چند اہم اسٹیپلز ہیں جو کم از کم تشکیل دیتے ہیں:

پوسن کی تقسیم پر لیکچر سے تصویر — https://www.wiplane.com/p/foundations-for-data-science-ml

  • محل وقوع کے تخمینے — وسط، درمیانی، اور ان کی دیگر اقسام۔
  • تغیرات کا تخمینہ
  • ارتباط اور ہم آہنگی۔
  • بے ترتیب متغیرات - مجرد اور مسلسل
  • ڈیٹا کی تقسیم- PMF، PDF، CDF
  • مشروط امکان — Bayesian statistics
  • عام طور پر استعمال ہونے والی شماریاتی تقسیمیں — گاوسی، بائنومیل، پوسن، ایکسپونینشل
  • اہم تھیورمز - بڑی تعداد کا قانون اور مرکزی حد نظریہ۔

پوسن کی تقسیم پر لیکچر سے تصویر — https://www.wiplane.com/p/foundations-for-data-science-ml

  • تخمینہ شماریاتاعداد و شمار کی ایک زیادہ عملی اور جدید شاخ جو مفروضے کی جانچ کے تجربات کو ڈیزائن کرنے میں مدد کرتی ہے، ہمیں میٹرکس کے معنی کو گہرائی سے سمجھنے کے لیے دھکیلتی ہے اور ساتھ ہی ساتھ نتائج کی اہمیت کا اندازہ لگانے میں بھی ہماری مدد کرتی ہے۔
  • اہم ٹیسٹطالب علم کا ٹی ٹیسٹ، چی اسکوائر ٹیسٹ، انووا ٹیسٹ، وغیرہ۔

ہر ابتدائی سطح کے ڈیٹا سائنس کے شوقین کو کسی بھی بنیادی ڈیٹا سائنس یا کور ML کورس میں جانے سے پہلے ان تین ستونوں پر توجہ دینی چاہیے۔

اوپر سیکھنے کے وسائل — ایک کمپیکٹ، جامع لیکن سستی کورس کی تلاش میں

https://www.freecodecamp.org/news/data-science-learning-roadmap/

میرا سیکھنے کا روڈ میپ آپ کو یہ بھی بتایا کہ کیا سیکھنا ہے، اور یہ وسائل، کورسز اور پروگراموں سے بھی بھرا ہوا تھا جس میں کوئی بھی اپنا اندراج کر سکتا ہے۔

لیکن تجویز کردہ وسائل اور روڈ میپ میں کچھ تضادات ہیں جو میں نے تیار کیے تھے۔

ڈیٹا سائنس یا ایم ایل کورسز کے ساتھ مسائل

  1. ہر ڈیٹا سائنس کورس جو میں نے وہاں درج کیا تھا اس کے لیے طلباء کو پروگرامنگ، ریاضی، یا شماریات کی اچھی سمجھ حاصل کرنے کی ضرورت ہوتی ہے۔ مثال کے طور پر، اینڈریو این جی کا ایم ایل پر سب سے مشہور کورس ویکٹر الجبرا اور کیلکولس کی سمجھ پر بھی بہت زیادہ انحصار کرتا ہے۔
  2. زیادہ تر کورسز جو کہ ڈیٹا سائنس کے لیے ریاضی اور اعدادوشمار کا احاطہ کرتے ہیں صرف DS/ML کے لیے درکار تصورات کی ایک فہرست ہے جس میں اس بات کی کوئی وضاحت نہیں ہے کہ ان کا اطلاق کیسے کیا جاتا ہے اور انہیں مشین میں کیسے پروگرام کیا جاتا ہے۔
  3. ریاضی میں گہرائی میں ڈوبنے کے لیے غیر معمولی وسائل موجود ہیں، لیکن ہم میں سے زیادہ تر اس کے لیے نہیں بنائے گئے ہیں، اور ڈیٹا سائنس سیکھنے کے لیے کسی کو گولڈ میڈلسٹ بننے کی ضرورت نہیں ہے۔

پایان لائن: ڈیٹا سائنس یا ML کے ساتھ شروع کرنے کے لیے صرف کافی اطلاق شدہ ریاضی یا اعدادوشمار یا پروگرامنگ کا احاطہ کرنے والا وسیلہ غائب ہے۔

وپلین اکیڈمی - wiplane.com

لہذا، میں نے خود کو دینے اور یہ سب کرنے کا فیصلہ کیا۔ میں نے پچھلے 3 مہینے ایک نصاب تیار کرنے میں گزارے ہیں جو آپ کے کیریئر کے لیے ایک مضبوط بنیاد فراہم کرے گا…

  • ڈیٹا تجزیہ
  • ڈیٹا سائنسدان
  • یا ایم ایل پریکٹیشنر/ انجینئر

یہاں میں آپ کو پیش کرتا ہوں۔ ڈیٹا سائنس یا ایم ایل کی بنیادیں۔ - ڈیٹا سائنس اور ایم ایل سیکھنے کے پہلے اقدامات

میں نے شروع کرنے کا فیصلہ کیا جب میں ہوں!

ایک جامع لیکن کمپیکٹ اور سستی کورس جو نہ صرف احاطہ کرتا ہے۔ تمام ضروری چیزیں، پیشگی ضروریات، اور پری کام لیکن یہ بھی بتاتا ہے کہ ہر تصور کو کس طرح استعمال کیا جاتا ہے۔ کمپیوٹیشنل اور پروگرام کے لحاظ سے (ازگر).

اور یہ سب کچھ نہیں ہے۔ میں آپ کے ان پٹ کی بنیاد پر ہر ماہ کورس کے مواد کو اپ ڈیٹ کرتا رہوں گا۔ اورجانیے یہاں.

ابتدائی پرندوں کی پیشکش!

میں اس کورس کی پری سیلز شروع کرنے کے لیے تیار ہوں کیونکہ میں فی الحال 2–3 ماڈیولز کے حتمی بٹس کو ریکارڈ کرنے اور ان میں ترمیم کرنے کے عمل میں ہوں، جو ستمبر کے پہلے ہفتے تک لائیو ہو جائے گا۔

ابتدائی پرندوں کی پیشکش حاصل کریں، جو صرف 30 اگست 2021 تک درست ہے۔

حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔

بیو: ہرشیت تیاگی ویب ٹیکنالوجیز اور ڈیٹا سائنس (عرف فل اسٹیک ڈیٹا سائنس) میں یکجا تجربہ رکھنے والا ایک انجینئر ہے جس نے ڈیٹا سائنس اور ایم ایل انجینئرنگ لرننگ ٹریک ڈیزائن کرتے ہوئے 1000 سے زیادہ AI/Web/Data Science کے خواہشمندوں کی رہنمائی کی ہے۔ اس سے پہلے، ہرشیت نے Yale، MIT، اور UCLA کے تحقیقی سائنسدانوں کے ساتھ ڈیٹا پروسیسنگ الگورتھم تیار کیا۔

متعلقہ:

ماخذ: https://www.kdnuggets.com/2021/08/learn-data-science-machine-learning.html

ٹائم اسٹیمپ:

سے زیادہ KDnuggets