التعلم تحت الإشراف

من ويكيبيديا، الموسوعة الحرة
اذهب إلى الملاحة اذهب الى البحث

التعلم الخاضع للإشراف (SL) هو مهمة التعلم الآلي لتعلم وظيفة تقوم بتعيين المدخلات إلى المخرجات بناءً على مثال أزواج المدخلات والمخرجات. [1] يستنتج دالة منتتكون بيانات التدريب المسمى من مجموعة منأمثلة التدريب. [2] في التعلم الخاضع للإشراف ، يكون كل مثالزوجًايتكون من كائن إدخال (عادةً متجه) وقيمة إخراج مرغوبة (تسمى أيضًاالإشارة الإشرافية). تحلل خوارزمية التعلم الخاضعة للإشراف بيانات التدريب وتنتج وظيفة مستنتجة يمكن استخدامها لرسم خرائط لأمثلة جديدة. سيسمح السيناريو الأمثل للخوارزمية بتحديد تسميات الفئات بشكل صحيح للحالات غير المرئية. يتطلب هذا من خوارزمية التعلم التعميم من بيانات التدريب إلى المواقف غير المرئية بطريقة "معقولة" (انظرالتحيز الاستقرائي). يتم قياس هذه الجودة الإحصائية للخوارزمية من خلال ما يسمى خطأ التعميم .

غالبًا ما يشار إلى المهمة الموازية في علم نفس الإنسان والحيوان باسم مفهوم التعلم .

خطوات لمتابعة

لحل مشكلة معينة تتعلق بالتعلم الخاضع للإشراف ، يتعين على المرء أن يقوم بالخطوات التالية:

  1. تحديد نوع الأمثلة التدريبية. قبل القيام بأي شيء آخر ، يجب على المستخدم تحديد نوع البيانات التي سيتم استخدامها كمجموعة تدريب. في حالة تحليل خط اليد ، على سبيل المثال ، قد يكون هذا حرفًا واحدًا مكتوبًا بخط اليد ، أو كلمة مكتوبة بخط اليد بأكملها ، أو جملة كاملة من خط اليد أو ربما فقرة كاملة من خط اليد.
  2. اجمع مجموعة تدريب. يجب أن تكون مجموعة التدريب ممثلة للاستخدام الواقعي للوظيفة. وبالتالي ، يتم جمع مجموعة من عناصر الإدخال ويتم أيضًا جمع المخرجات المقابلة ، إما من الخبراء البشريين أو من القياسات.
  3. تحديد تمثيل ميزة الإدخال للوظيفة التي تم تعلمها. تعتمد دقة الوظيفة التي تم تعلمها بشدة على كيفية تمثيل كائن الإدخال. بشكل نموذجي ، يتم تحويل كائن الإدخال إلى ناقل معالم ، والذي يحتوي على عدد من الميزات الوصفية للكائن. يجب ألا يكون عدد الميزات كبيرًا جدًا ، بسبب لعنة الأبعاد ؛ ولكن يجب أن تحتوي على معلومات كافية للتنبؤ بدقة بالمخرجات.
  4. تحديد هيكل الوظيفة المكتسبة وخوارزمية التعلم المقابلة. على سبيل المثال ، قد يختار المهندس استخدام آلات ناقلات الدعم أو أشجار القرار .
  5. أكمل التصميم. قم بتشغيل خوارزمية التعلم على مجموعة التدريب المجمعة. تتطلب بعض خوارزميات التعلم الخاضع للإشراف من المستخدم تحديد معلمات تحكم معينة. يمكن تعديل هذه المعلمات من خلال تحسين الأداء على مجموعة فرعية (تسمى مجموعة التحقق من الصحة ) لمجموعة التدريب ، أو عبر التحقق المتبادل .
  6. تقييم دقة الوظيفة التي تم تعلمها. بعد تعديل المعلمة والتعلم ، يجب قياس أداء الوظيفة الناتجة على مجموعة اختبار منفصلة عن مجموعة التدريب.

اختيار الخوارزمية

تتوفر مجموعة واسعة من خوارزميات التعلم تحت الإشراف ، ولكل منها نقاط قوتها وضعفها. لا توجد خوارزمية تعليمية واحدة تعمل بشكل أفضل في جميع مشاكل التعلم تحت الإشراف (انظر نظرية لا غداء مجاني ).

هناك أربع قضايا رئيسية يجب مراعاتها في التعلم تحت الإشراف:

مقايضة التباين التحيز

والمسألة الأولى هي المفاضلة بين التحيز و التباين . [3] تخيل أن لدينا عدة مجموعات بيانات تدريبية مختلفة ولكنها جيدة بنفس القدر. خوارزمية التعلم متحيزة لمدخل معين إذا كان ، عند التدريب على كل من مجموعات البيانات هذه ، غير صحيح بشكل منهجي عند التنبؤ بالإخراج الصحيح لـ . تحتوي خوارزمية التعلم على تباين كبير لمدخل معينإذا توقعت قيم مخرجات مختلفة عند تدريبها على مجموعات تدريب مختلفة. يرتبط خطأ التنبؤ الخاص بالمصنف الذي تم تعلمه بمجموع التحيز والتباين في خوارزمية التعلم. [4] بشكل عام ، هناك مفاضلة بين التحيز والتباين. يجب أن تكون خوارزمية التعلم ذات التحيز المنخفض "مرنة" بحيث يمكن أن تناسب البيانات بشكل جيد. ولكن إذا كانت خوارزمية التعلم مرنة للغاية ، فسوف تناسب كل مجموعة بيانات تدريب بشكل مختلف ، وبالتالي يكون لها تباين كبير. يتمثل أحد الجوانب الرئيسية للعديد من طرق التعلم الخاضعة للإشراف في قدرتها على ضبط هذه المقايضة بين التحيز والتباين (إما تلقائيًا أو عن طريق توفير معلمة تحيز / تباين يمكن للمستخدم تعديلها).

تعقيد الوظيفة وكمية بيانات التدريب

المسألة الثانية هي كمية بيانات التدريب المتاحة بالنسبة لمدى تعقيد الوظيفة "الحقيقية" (المصنف أو وظيفة الانحدار). إذا كانت الوظيفة الحقيقية بسيطة ، فإن خوارزمية التعلم "غير المرنة" ذات التحيز العالي والتباين المنخفض ستكون قادرة على تعلمها من كمية صغيرة من البيانات. ولكن إذا كانت الوظيفة الحقيقية معقدة للغاية (على سبيل المثال ، لأنها تتضمن تفاعلات معقدة بين العديد من ميزات الإدخال المختلفة وتتصرف بشكل مختلف في أجزاء مختلفة من مساحة الإدخال) ، فلن تكون الوظيفة قادرة على التعلم إلا من كمية كبيرة جدًا من بيانات التدريب واستخدام خوارزمية تعلم "مرنة" مع انحياز منخفض وتباين كبير. هناك ترسيم واضح بين المدخلات والمخرجات المطلوبة.

أبعاد مساحة الإدخال

المسألة الثالثة هي أبعاد فضاء الإدخال. إذا كانت متجهات خاصية الإدخال ذات أبعاد عالية جدًا ، فقد تكون مشكلة التعلم صعبة حتى إذا كانت الوظيفة الحقيقية تعتمد فقط على عدد صغير من هذه الميزات. وذلك لأن العديد من الأبعاد "الإضافية" يمكن أن تربك خوارزمية التعلم وتتسبب في وجود تباين كبير. ومن ثم ، فإن الأبعاد العالية للمدخلات تتطلب عادةً ضبط المصنف ليكون له تباين منخفض وتحيز عالي. من الناحية العملية ، إذا كان المهندس يمكنه إزالة الميزات غير ذات الصلة يدويًا من بيانات الإدخال ، فمن المحتمل أن يؤدي ذلك إلى تحسين دقة الوظيفة التي تم تعلمها. بالإضافة إلى ذلك ، هناك العديد من الخوارزميات لاختيار الميزات التي تسعى إلى تحديد الميزات ذات الصلة وتجاهل الميزات غير ذات الصلة. هذا مثال على الإستراتيجية الأكثر عمومية لـتقليل الأبعاد ، والذي يسعى إلى تعيين بيانات الإدخال في مساحة ذات أبعاد أقل قبل تشغيل خوارزمية التعلم الخاضع للإشراف.

الضوضاء في قيم الإخراج

المسألة الرابعة هي درجة الضوضاء في قيم المخرجات المرغوبة ( متغيرات الهدف الإشرافي ). إذا كانت قيم المخرجات المرغوبة غالبًا غير صحيحة (بسبب خطأ بشري أو أخطاء في جهاز الاستشعار) ، فيجب ألا تحاول خوارزمية التعلم العثور على وظيفة تتطابق تمامًا مع أمثلة التدريب. تؤدي محاولة ملاءمة البيانات بعناية شديدة إلى زيادة التجهيز . يمكنك الإفراط في التجهيز حتى في حالة عدم وجود أخطاء في القياس (ضوضاء عشوائية) إذا كانت الوظيفة التي تحاول تعلمها معقدة للغاية بالنسبة لنموذج التعلم الخاص بك. في مثل هذه الحالة ، فإن جزء الوظيفة المستهدفة الذي لا يمكن نمذجته "يفسد" بيانات التدريب الخاصة بك - هذه الظاهرة تسمى الضوضاء الحتمية. عند وجود أي نوع من الضوضاء ، فمن الأفضل اتباع تحيز أعلى ومقدر تباين أقل.

في الممارسة العملية ، هناك العديد من الأساليب للتخفيف من الضوضاء في قيم الإخراج مثل التوقف المبكر لمنع فرط التجهيز وكذلك اكتشاف وإزالة أمثلة التدريب الصاخبة قبل تدريب خوارزمية التعلم تحت الإشراف. هناك العديد من الخوارزميات التي تحدد أمثلة التدريب الصاخبة وتؤدي إزالة أمثلة التدريب الصاخبة المشتبه بها قبل التدريب إلى تقليل خطأ التعميم ذي الأهمية الإحصائية . [5] [6]

عوامل أخرى يجب مراعاتها

تشمل العوامل الأخرى التي يجب مراعاتها عند اختيار وتطبيق خوارزمية التعلم ما يلي:

عند التفكير في تطبيق جديد ، يمكن للمهندس مقارنة خوارزميات التعلم المتعددة وتحديد أي منها يعمل بشكل أفضل على المشكلة المطروحة بشكل تجريبي (انظر التحقق المتبادل ). يمكن أن يستغرق ضبط أداء خوارزمية التعلم وقتًا طويلاً للغاية. بالنظر إلى الموارد الثابتة ، غالبًا ما يكون من الأفضل قضاء المزيد من الوقت في جمع بيانات تدريب إضافية وميزات إعلامية أكثر من قضاء وقت إضافي في ضبط خوارزميات التعلم.

الخوارزميات

أكثر خوارزميات التعلم استخدامًا هي:

كيف تعمل خوارزميات التعلم الخاضع للإشراف

نظرا لمجموعة من أمثلة تدريبية من النموذج مثل ذلك هو متجه ميزة للعلى سبيل المثال و هي التسمية (أي فئة) ، تسعى خوارزمية التعلم للحصول على وظيفة ، أين هي مساحة الإدخال و هي مساحة الإخراج. الوظيفة هو عنصر من مساحة بعض الوظائف الممكنة ، تسمى عادةً مساحة الفرضية . من الملائم أحيانًا التمثيل باستخدام وظيفة التهديف مثل ذلك يتم تعريفه على أنه إرجاع القيمة التي تعطي أعلى درجة: . يترك تشير إلى مساحة وظائف التسجيل.

بالرغم ان و يمكن أن يكون أي مساحة من الوظائف ، والعديد من خوارزميات التعلم هي نماذج احتمالية حيث يأخذ شكل نموذج احتمالية مشروطة، أو يأخذ شكل نموذج احتمالية مشترك. على سبيل المثال، بايز ساذجة و الخطي تحليل التمايز هي نماذج احتمال مشتركة، في حين الانحدار اللوجستي هو نموذج الاحتمال الشرطي.

هناك طريقتان أساسيتان للاختيار أو : التجريبية تقليل المخاطر و تقليل المخاطر الهيكلية . [7] يسعى تقليل المخاطر التجريبية إلى الوظيفة التي تناسب بيانات التدريب على أفضل وجه. يتضمن تقليل المخاطر الهيكلية وظيفة جزائية تتحكم في مقايضة التحيز / التباين.

في كلتا الحالتين ، يُفترض أن مجموعة التدريب تتكون من عينة من أزواج مستقلة وموزعة بشكل متماثل ،. لقياس مدى ملاءمة الوظيفة لبيانات التدريب ، وظيفة الخسارة ويعرف. على سبيل المثال التدريب، فقدان التنبؤ بالقيمة يكون .

في خطر من الوظيفة تُعرَّف بأنها الخسارة المتوقعة لـ . يمكن تقدير ذلك من بيانات التدريب كـ

.

تقليل المخاطر التجريبية

في تقليل المخاطر التجريبية ، تسعى خوارزمية التعلم الخاضع للإشراف إلى الوظيفة هذا يقلل . ومن ثم ، يمكن إنشاء خوارزمية تعلم خاضعة للإشراف من خلال تطبيق خوارزمية تحسين للعثور عليها.

متي هو توزيع احتمالي مشروط ووظيفة الخسارة هي احتمالية السجل السلبي: ، فإن تقليل المخاطر التجريبية يعادل الحد الأقصى لتقدير الاحتمالية .

متي تحتوي على العديد من الوظائف المرشحة أو أن مجموعة التدريب ليست كبيرة بما يكفي ، يؤدي تقليل المخاطر التجريبية إلى تباين كبير وضعف التعميم. خوارزمية التعلم قادرة على حفظ أمثلة التدريب دون التعميم بشكل جيد. وهذا ما يسمى overfitting .

تقليل المخاطر الهيكلية

يسعى تقليل المخاطر الهيكلية إلى منع الإفراط في التخصيص من خلال دمج عقوبة التنظيم في التحسين. يمكن النظر إلى عقوبة التنظيم على أنها تنفيذ شكل من أشكال ماكينة حلاقة أوكام الذي يفضل الوظائف الأبسط على الوظائف الأكثر تعقيدًا.

تم استخدام مجموعة متنوعة من العقوبات التي تتوافق مع تعريفات مختلفة للتعقيد. على سبيل المثال ، ضع في اعتبارك الحالة التي تكون فيها الوظيفة هي دالة خطية للنموذج

.

عقوبة تسوية شعبية هي ، وهي القاعدة الإقليدية التربيعية للأوزان ، والمعروفة أيضًا باسممعيار. تشمل القواعد الأخرى معيار، ، و ال "القاعدة" ، وهي عدد غير الصفرس. سيتم الإشارة إلى العقوبة بواسطة.

تتمثل مشكلة تحسين التعلم الخاضع للإشراف في العثور على الوظيفة هذا يقلل

المعلمة يتحكم في مقايضة التباين التحيز. متي، وهذا يعطي تقليلًا تجريبيًا للمخاطر مع انخفاض التحيز والتباين العالي. متيكبيرة ، سيكون لخوارزمية التعلم انحياز كبير وتباين منخفض. قيمة اليمكن اختياره تجريبياً عبر التحقق من الصحة .

عقوبة التعقيد لها تفسير بايزي باعتباره الاحتمال المسبق للسجل السلبي و ، في أي حالة هو احتمال الخلفي من.

التدريب التوليدي

طرق التدريب الموصوفة أعلاه هي طرق تدريب تمييزية ، لأنها تسعى إلى إيجاد وظيفةالذي يميز بشكل جيد بين قيم الإخراج المختلفة (انظر النموذج التمييزي ). للحالة الخاصة حيثهو توزيع احتمالي مشترك ودالة الخسارة هي احتمالية السجل السلبييقال أن خوارزمية تقليل المخاطر تؤدي التدريب التوليدي ، لأنيمكن اعتباره نموذجًا توليديًا يشرح كيفية إنشاء البيانات. غالبًا ما تكون خوارزميات التدريب التوليدية أبسط وأكثر كفاءة من الناحية الحسابية من خوارزميات التدريب التمييزي. في بعض الحالات، والحل يمكن حسابها في شكل مغلق كما هو الحال في السذاجة بايز و الخطي تحليل التمايز .

التعميمات

هناك عدة طرق يمكن من خلالها تعميم مشكلة التعلم المعياري تحت الإشراف:

  • التعلم شبه الخاضع للإشراف : في هذا الإعداد ، يتم توفير قيم الإخراج المطلوبة فقط لمجموعة فرعية من بيانات التدريب. البيانات المتبقية غير مسماة.
  • إشراف ضعيف : في هذا الإعداد ، تُستخدم مصادر صاخبة أو محدودة أو غير دقيقة لتوفير إشارة إشراف لتمييز بيانات التدريب.
  • التعلم النشط : بدلاً من افتراض أن جميع أمثلة التدريب يتم تقديمها في البداية ، تجمع خوارزميات التعلم النشط بشكل تفاعلي أمثلة جديدة ، عادةً عن طريق إرسال استفسارات إلى مستخدم بشري. غالبًا ما تستند الاستعلامات إلى بيانات غير مسماة ، وهو سيناريو يجمع بين التعلم شبه الخاضع للإشراف والتعلم النشط.
  • التنبؤ المنظم : عندما تكون قيمة الإخراج المطلوبة كائنًا معقدًا ، مثل شجرة التحليل أو الرسم البياني المسمى ، فيجب توسيع الطرق القياسية.
  • تعلم الترتيب : عندما يكون الإدخال عبارة عن مجموعة من الكائنات والمخرجات المرغوبة هي ترتيب لتلك الكائنات ، ثم مرة أخرى يجب توسيع الطرق القياسية.

المناهج والخوارزميات

التطبيقات

قضايا عامة

انظر أيضا

المراجع

  1. ^ ستيوارت جي راسل ، بيتر نورفيج (2010) الذكاء الاصطناعي: نهج حديث ، الطبعة الثالثة ، برنتيس هول ISBN  9780136042594 .
  2. ^ مهريار مهري ، أفشين رستميزاده ، أميت تالوالكار (2012) أسس التعلم الآلي ، مطبعة معهد ماساتشوستس للتكنولوجيا ISBN 9780262018258 . 
  3. ^ س.جيمان ، إي.بينينستوك ، ور. دورسات (1992). الشبكات العصبية ومعضلة التحيز / التباين . الحساب العصبي 4 ، 1-58.
  4. ^ جي جيمس (2003) التباين والانحياز لوظائف الخسارة العامة ، التعلم الآلي 51 ، 115-135. ( http://www-bcf.usc.edu/~gareth/research/bv.pdf )
  5. ^ CE Brodely و MA Friedl (1999). تحديد والقضاء على مثيلات التدريب الخاطئة ، مجلة أبحاث الذكاء الاصطناعي 11 ، 131-167. ( http://jair.org/media/606/live-606-1803-jair.pdf )
  6. ^ MR Smith and T. Martinez (2011). "تحسين دقة التصنيف عن طريق تحديد وإزالة الحالات التي يجب إساءة تصنيفها". وقائع المؤتمر الدولي المشترك حول الشبكات العصبية (IJCNN 2011) . ص 2690 - 2697. CiteSeerX 10.1.1.221.1371 . دوى : 10.1109 / IJCNN.2011.6033571 . 
  7. ^ فابنيك ، في إن طبيعة نظرية التعلم الإحصائي (الطبعة الثانية) ، Springer Verlag ، 2000.
  8. ^ أ.مايتي (2016). "التصنيف الخاضع للإشراف لبيانات قياس قطبية RADARSAT-2 لخصائص الأرض المختلفة". arXiv : 1608.00501 [ cs.CV ].

روابط خارجية