تقييم نموذج التعلم الآلي

أعاد نشره أفلاطون

المتابعون: 0

ما هو التعلم الآلي؟

يعد التعلم الآلي موضوعًا شائعًا في تكنولوجيا المعلومات في يومنا هذا. يسمح التعلم الآلي لجهاز الكمبيوتر الخاص بنا باكتساب نظرة ثاقبة من البيانات والخبرة تمامًا كما يفعل الإنسان. في التعلم الآلي ، يقوم المبرمجون بتعليم الكمبيوتر كيفية استخدام خبراته السابقة مع كيانات مختلفة لأداء أفضل في السيناريوهات المستقبلية.

يتضمن التعلم الآلي بناء نماذج رياضية لمساعدتنا على فهم البيانات الموجودة في متناول اليد. بمجرد تركيب هذه النماذج على البيانات التي سبق رؤيتها ، يمكن استخدامها للتنبؤ بالبيانات المرصودة حديثًا.

في التعلم الآلي ، تكون النماذج مفيدة فقط مثل جودة التنبؤات الخاصة بها ؛ ومن ثم ، فإن هدفنا الأساسي ليس إنشاء نماذج ولكن إنشاء نماذج عالية الجودة ذات قوة تنبؤية واعدة. سنقوم الآن بفحص استراتيجيات لتقييم جودة النماذج التي يتم إنشاؤها بواسطة خوارزميات التعلم الآلي الخاصة بنا.

المصدر شركة نوكيا.

تقييم توقعات المصنف الثنائي.

عندما يتعلق الأمر بتقييم مصنف ثنائي ، فإن الدقة هي مقياس أداء معروف جيدًا يتم استخدامه لإخبار نموذج تصنيف قوي عن نموذج ضعيف. الدقة ، ببساطة ، هي النسبة الإجمالية للملاحظات التي تم توقعها بشكل صحيح. هناك أربعة (4) مكونات رئيسية تشكل الصيغة الرياضية لحساب الدقة ، أي. تمنحنا TP و TN و FP و FN وهذه المكونات القدرة على استكشاف مقاييس تقييم نموذج ML الأخرى. معادلة حساب الدقة هي كما يلي:

المصدر: جهاز الكمبيوتر الخاص بي

أين:

يمثل TP عدد الإيجابيات الحقيقية. يشير هذا إلى العدد الإجمالي للملاحظات التي تنتمي إلى الفئة الإيجابية والتي تم توقعها بشكل صحيح.
يمثل TN عدد السلبيات الحقيقية. هذا هو العدد الإجمالي للملاحظات التي تنتمي إلى الفئة السلبية والتي تم توقعها بشكل صحيح.
FP هو عدد الإيجابيات الكاذبة. يُعرف أيضًا باسم خطأ النوع 1. هذا هو العدد الإجمالي للملاحظات التي تم التنبؤ بأنها تنتمي إلى الفئة الإيجابية ، ولكن بدلاً من ذلك ، تنتمي في الواقع إلى الفئة السلبية.
FN هو عدد السلبيات الكاذبة. من الممكن ان تكون
يشار إليه على أنه خطأ من النوع 2. هذا هو العدد الإجمالي للملاحظات التي
من المتوقع أن يكونوا جزءًا من الطبقة السلبية ولكن بدلاً من ذلك ينتمون إلى
الطبقة الإيجابية.

السبب الرئيسي للأفراد لاستخدام مقياس تقييم الدقة هو سهولة الاستخدام. يحتوي مقياس التقييم هذا على نهج وشرح بسيط. إنها ، كما تمت مناقشته من قبل ، النسبة الإجمالية (العدد الإجمالي) للملاحظات التي تم التنبؤ بها بشكل صحيح. ومع ذلك ، فإن الدقة هي مقياس تقييم لا يعمل بشكل جيد عند وجود فصول غير متوازنة - عندما تكون الدقة في وجود فصول غير متوازنة ، تعاني من مفارقة ؛ على سبيل المثال ، عندما تكون قيمة الدقة عالية ولكن النموذج يفتقر إلى القدرة التنبؤية ، وستكون معظم التنبؤات ، إن لم يكن كلها ، غير صحيحة.

للسبب أعلاه ، عندما لا نتمكن من استخدام مقياس تقييم الدقة ، فإننا مضطرون إلى اللجوء إلى مقاييس التقييم الأخرى في ترسانة scikit-Learn. وتشمل هذه ، على سبيل المثال لا الحصر ، مقاييس التقييم التالية:

دقة

يشير هذا إلى نسبة (العدد الإجمالي) لجميع الملاحظات التي تم التنبؤ بأنها تنتمي إلى الفئة الإيجابية وهي في الواقع إيجابية. صيغة مقياس تقييم الدقة هي كما يلي:

المصدر: جهاز الكمبيوتر الخاص بي

تذكر

هذه هي نسبة الملاحظة التي يُتوقع أن تنتمي إلى الطبقة الإيجابية ، التي تنتمي حقًا إلى الطبقة الإيجابية. يخبرنا بشكل غير مباشر بقدرة النموذج على تحديد ملاحظة تنتمي إلى الفئة الإيجابية بشكل عشوائي. معادلة الاستدعاء كما يلي:

المصدر: جهاز الكمبيوتر الخاص بي

نتيجة F1.

هذا مقياس تقييم متوسط يستخدم لإنشاء نسبة. تُعرف درجة F1 أيضًا باسم المتوسط التوافقي للدقة واسترجاع مقاييس التقييم. مقياس التقييم هذا هو مقياس للصحة العامة التي حققها نموذجنا في بيئة تنبؤ إيجابية-
على سبيل المثال ، من بين جميع الملاحظات التي وصفها نموذجنا بالإيجابية ، كم من هذه الملاحظات إيجابية بالفعل. صيغة درجة F1
مقياس التقييم هو كما يلي:

المصدر: جهاز الكمبيوتر الخاص بي

تقييم تنبؤات المصنف متعدد التصنيفات.

كما تعلمنا من المعلومات السابقة في المقالة ، في التعلم الآلي ، فإن جميع بيانات الإدخال غير متوازنة ، ومن هنا تأتي مشكلة الفئات غير المتوازنة. بعد إزالة مقياس تقييم الدقة من خياراتنا ، ننتقل على وجه التحديد إلى درجات الدقة والاستدعاء و F1. نحن نستخدم المعلمة
خيارات في Python ، والتي تُستخدم لتجميع قيم التقييم عن طريق حساب متوسطها. الخيارات الثلاثة الرئيسية المتاحة لنا هي:

_macro - نحدد هنا للمجمع أن يحسب متوسط الدرجات المترية لكل فئة في مجموعة البيانات ، مع ترجيح كل فئة بالتساوي.
_ مرجح - نحسب متوسط الدرجات المترية لكل فئة ، ونقوم بوزن كل فئة بشكل متناسب مع حجمها في مجموعة البيانات.
_micro - نحسب هنا متوسط المقياس
عشرات لكل ملاحظة في مجموعة البيانات.

المصدر متوسط.

تصور أداء المصنف.

حاليًا ، الطريقة الأكثر شيوعًا لتصور أداء المصنف هي من خلال مصفوفة الارتباك. يمكن الإشارة إلى مصفوفة الارتباك بمصفوفة الخطأ. تتمتع مصفوفة الارتباك بمستوى عالٍ من القابلية للتفسير. وهو يتألف من تنسيق جدولي بسيط ، والذي غالبًا ما يتم إنشاؤه وتصوره كخريطة حرارية. يمثل كل عمود في مصفوفة الارتباك الفئات المتوقعة ، بينما يُظهر كل صف الفئات الحقيقية (أو الفعلية).

هناك ثلاث حقائق مهمة يجب أن تكون على دراية بها حول مصفوفة الارتباك:

تحتوي مصفوفة الارتباك المثالية على قيم على طول القطر الرئيسي (من اليسار إلى اليمين) ، وستكون هناك أصفار (0) في كل مكان آخر في مصفوفة الارتباك.
لا تظهر لنا مصفوفة الارتباك فقط أين تعثر نموذج التعلم الآلي ولكن أيضًا كيف توصل إلى هذه الاستنتاجات.
ستعمل مصفوفة الارتباك مع أي رقم
من الفئات ، أي وجود مجموعة بيانات تحتوي على 50 فئة ، لن يؤثر على النموذج
الأداء ولا مصفوفة الارتباك - هذا يعني فقط أن المصفوفة المرئية الخاصة بك ستفعل ذلك
أن تكون كبيرة الحجم.

المصدر ResearchGate.

تقييم أداء نموذج الانحدار.

بالنسبة لعامل التراجع ، ستجد أن أحد مقاييس التقييم الأكثر استخدامًا والأكثر شهرة هو MSE. MSE تعني الخطأ التربيعي المتوسط. ضع في التمثيل الرياضي ، يتم حساب MSE على النحو التالي:

المصدر: جهاز الكمبيوتر الخاص بي.

أين:

يمثل n عدد المشاهدات في مجموعة البيانات.
y_i هي القيمة الحقيقية للقيمة المستهدفة التي نحاول توقعها للملاحظة الأولى.
ŷ_i هي القيمة المتوقعة للنموذج لـ y_i.

MSE هي عملية حسابية تتضمن إيجاد المجموع التربيعي لجميع المسافات بين القيم المتوقعة والقيم الحقيقية. كلما زادت قيمة مخرجات MSE ، زاد مجموع الخطأ التربيعي الموجود في النموذج ، وبالتالي ، كانت جودة تنبؤات النموذج أسوأ. هناك مزايا لتربيع هوامش الخطأ ، كما هو موضح في النموذج:

أولاً ، يؤدي تربيع الخطأ إلى تقييد جميع قيم الخطأ لتكون موجبة.
ثانيًا ، هذا يعني أن النموذج سوف يعاقب القليل
قيم خطأ كبيرة ، أكثر من أنها ستعاقب العديد من قيم الخطأ الصغيرة.