تعزيز التعلم

من ويكيبيديا، الموسوعة الحرة
اذهب إلى الملاحة اذهب الى البحث

التعلم المعزز ( RL ) هو مجال من مجالات التعلم الآلي يهتم بالكيفية التي يجب أن يتخذها الوكلاء الأذكياء في بيئة ما من أجل تعظيم فكرة المكافأة التراكمية . يعد التعلم المعزز واحدًا من ثلاثة نماذج أساسية للتعلم الآلي ، جنبًا إلى جنب مع التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف .

يختلف التعلم المعزز عن التعلم الخاضع للإشراف في عدم الحاجة إلى تقديم أزواج من المدخلات / المخرجات ، وفي عدم الحاجة إلى تصحيح الإجراءات دون المستوى بشكل صريح. بدلاً من ذلك ، ينصب التركيز على إيجاد توازن بين استكشاف (منطقة مجهولة) واستغلال (المعرفة الحالية). [1] يمكن لخوارزميات RL الخاضعة للإشراف الجزئي أن تجمع بين مزايا خوارزميات RL الخاضعة للإشراف وخوارزميات RL. [2]

عادةً ما يتم تحديد البيئة في شكل عملية قرار ماركوف (MDP) ، لأن العديد من خوارزميات التعلم المعزز لهذا السياق تستخدم تقنيات البرمجة الديناميكية . [3] الاختلاف الرئيسي بين طرق البرمجة الديناميكية الكلاسيكية وخوارزميات التعلم المعزز هو أن الأخيرة لا تفترض المعرفة بنموذج رياضي دقيق لـ MDP وتستهدف MDP كبيرة حيث تصبح الطرق الدقيقة غير قابلة للتطبيق.

مقدمة

التأطير النموذجي لسيناريو التعلم المعزز (RL): يتخذ الوكيل إجراءات في بيئة ، والتي يتم تفسيرها إلى مكافأة وتمثيل للدولة ، والتي يتم إعادتها إلى الوكيل.

نظرًا لعموميتها ، تتم دراسة التعلم المعزز في العديد من التخصصات ، مثل نظرية اللعبة ، ونظرية التحكم ، وبحوث العمليات ، ونظرية المعلومات ، والتحسين القائم على المحاكاة ، والأنظمة متعددة العوامل ، وذكاء السرب ، والإحصاءات . في أبحاث العمليات وأدبيات التحكم ، يُطلق على التعلم المعزز اسم البرمجة الديناميكية التقريبية أو البرمجة الديناميكية العصبية. كما تمت دراسة مشاكل الاهتمام بالتعلم المعزز في نظرية التحكم الأمثل، والتي تهتم في الغالب بوجود وتوصيف الحلول المثلى ، وخوارزميات لحسابها الدقيق ، وبدرجة أقل بالتعلم أو التقريب ، لا سيما في حالة عدم وجود نموذج رياضي للبيئة. في علم الاقتصاد ونظرية اللعبة ، يمكن استخدام التعلم المعزز لشرح كيف يمكن أن ينشأ التوازن في ظل العقلانية المحدودة .

تم تصميم التعزيز الأساسي كعملية قرار ماركوف (MDP) :

  • مجموعة من الدول البيئية والوكيلة ، S ؛
  • مجموعة من الإجراءات ، أ ، للوكيل ؛
  • هو احتمال الانتقال (في وقت) من الدولةللدولةتحت العمل.
  • هي المكافأة الفورية بعد الانتقال منلمع العمل.

الغرض من التعلم المعزز هو أن يتعلم الوكيل سياسة مثالية ، أو شبه مثالية ، تزيد من "وظيفة المكافأة" أو غيرها من إشارات التعزيز التي يوفرها المستخدم والتي تتراكم من المكافآت الفورية. هذا مشابه للعمليات التي يبدو أنها تحدث في علم نفس الحيوان. على سبيل المثال ، يتم ربط العقول البيولوجية بتفسير إشارات مثل الألم والجوع كتعزيزات سلبية ، وتفسير المتعة وتناول الطعام كتعزيزات إيجابية. في بعض الظروف ، يمكن للحيوانات أن تتعلم الانخراط في السلوكيات التي تعمل على تحسين هذه المكافآت. هذا يشير إلى أن الحيوانات قادرة على التعلم المعزز. [4] [5]

يتفاعل عامل التعلم المعزز الأساسي AI مع بيئته في خطوات زمنية منفصلة. في كل مرة t ، يتلقى الوكيل الحالة الحاليةوالمكافأة. ثم يختار الإجراءمن مجموعة الإجراءات المتاحة ، والتي يتم إرسالها لاحقًا إلى البيئة. تنتقل البيئة إلى حالة جديدةوالثوابالمرتبطة بالانتقال يتم تحديد. الهدف من عامل التعلم المعزز هو تعلم السياسة :والذي يزيد من المكافأة التراكمية المتوقعة.

صياغة المشكلة باعتبارها MDP تفترض أن الوكيل يراقب بشكل مباشر الحالة البيئية الحالية ؛ في هذه الحالة ، يُقال أن المشكلة تتمتع بإمكانية ملاحظة كاملة . إذا كان الوكيل لديه حق الوصول فقط إلى مجموعة فرعية من الحالات ، أو إذا كانت الحالات التي تمت ملاحظتها تالفة بسبب الضوضاء ، فيُقال إن العامل لديه إمكانية ملاحظة جزئية ، ويجب رسميًا صياغة المشكلة كعملية قرار ماركوف يمكن ملاحظتها جزئيًا . في كلتا الحالتين ، يمكن تقييد مجموعة الإجراءات المتاحة للوكيل. على سبيل المثال ، يمكن تقييد حالة رصيد الحساب لتكون إيجابية ؛ إذا كانت القيمة الحالية للحالة 3 وكان انتقال الحالة يحاول تقليل القيمة بمقدار 4 ، فلن يُسمح بالانتقال.

عندما يُقارن أداء الوكيل بأداء الوكيل الذي يعمل على النحو الأمثل ، فإن الاختلاف في الأداء يؤدي إلى فكرة الندم . من أجل التصرف بشكل شبه مثالي ، يجب على الوكيل التفكير في العواقب طويلة المدى لأفعاله (أي زيادة الدخل المستقبلي إلى الحد الأقصى) ، على الرغم من أن المكافأة الفورية المرتبطة بذلك قد تكون سلبية.

وبالتالي ، فإن التعلم المعزز مناسب بشكل خاص للمشكلات التي تتضمن مقايضة المكافآت طويلة الأجل مقابل المكافآت قصيرة الأجل. تم تطبيقه بنجاح على العديد من المشاكل ، بما في ذلك التحكم في الروبوت ، [6] جدولة المصعد ، الاتصالات السلكية واللاسلكية ، لعبة الطاولة ، لعبة الداما [7] و Go ( AlphaGo ).

هناك عنصران يجعلان التعلم المعزز قويًا: استخدام العينات لتحسين الأداء واستخدام تقريب الوظيفة للتعامل مع البيئات الكبيرة. بفضل هذين المكونين الرئيسيين ، يمكن استخدام التعلم المعزز في بيئات كبيرة في المواقف التالية:

يمكن اعتبار أول مشكلتين من هاتين المشكلتين مشاكل تخطيط (حيث يتوفر نموذج ما) ، بينما يمكن اعتبار المشكلة الأخيرة مشكلة تعلم حقيقية. ومع ذلك ، فإن التعلم المعزز يحول كل من مشاكل التخطيط إلى مشاكل التعلم الآلي .

استكشاف

تمت دراسة مبادلة الاستكشاف مقابل الاستغلال بشكل أكثر شمولاً من خلال مشكلة ماكينات الألعاب المتعددة ولحسابات MDPs الفضائية المحدودة في Burnetas و Katehakis (1997). [9]

يتطلب التعلم المعزز آليات استكشاف ذكية ؛ يظهر الاختيار العشوائي للإجراءات ، دون الرجوع إلى توزيع احتمالي تقديري ، أداءً ضعيفًا. إن حالة عمليات قرار ماركوف المحدودة (الصغيرة) مفهومة جيدًا نسبيًا. ومع ذلك ، نظرًا لعدم وجود خوارزميات تتناسب بشكل جيد مع عدد الحالات (أو مقياس لمشكلات فضاءات الحالة اللانهائية) ، فإن طرق الاستكشاف البسيطة هي الأكثر عملية.

إحدى هذه الطرق هيالجشع أينهي معلمة تتحكم في مقدار الاستكشاف مقابل الاستغلال. مع الاحتمال، يتم اختيار الاستغلال ، ويختار الوكيل الإجراء الذي يعتقد أن له أفضل تأثير طويل المدى (يتم قطع العلاقات بين الأفعال بشكل موحد وعشوائي). بدلا من ذلك ، مع الاحتمال، يتم اختيار الاستكشاف ، ويتم اختيار الإجراء بشكل موحد عشوائيًا.عادةً ما تكون معلمة ثابتة ولكن يمكن تعديلها إما وفقًا لجدول زمني (مما يجعل الوكيل يستكشف بشكل أقل تدريجيًا) ، أو يعتمد على الاستدلال بشكل تكيفي. [10]

خوارزميات للتحكم في التعلم

حتى إذا تم تجاهل مسألة الاستكشاف وحتى إذا كانت الحالة يمكن ملاحظتها (مفترضة فيما بعد) ، تظل المشكلة في استخدام الخبرة السابقة لمعرفة الإجراءات التي تؤدي إلى مكافآت تراكمية أعلى.

معيار الأمثل

سياسة

تم تصميم اختيار عمل الوكيل كخريطة تسمى السياسة :

تعطي خريطة السياسة احتمالية اتخاذ الإجراءاتعندما تكون في الدولة. [11] : 61  هناك أيضًا سياسات حتمية.

وظيفة قيمة الدولة

دالة القيمةيتم تعريفه على أنه العائد المتوقع الذي يبدأ بالحالة، بمعنى آخر، والسياسة التالية على التوالي. ومن ثم ، بشكل تقريبي ، تقدر دالة القيمة "مدى جودة" أن تكون في حالة معينة. [11] : 60 

حيث المتغير العشوائييشير إلى العائد ، ويتم تعريفه على أنه مجموع المكافآت المخصومة في المستقبل:

أينهي المكافأة في الخطوةوهو معدل الخصم . جاما أقل من 1 ، لذا فإن الأحداث في المستقبل البعيد تكون أقل ترجيحًا من الأحداث في المستقبل القريب.

يجب أن تعثر الخوارزمية على سياسة بأقصى عائد متوقع. من نظرية MDPs ، من المعروف أنه بدون فقدان العمومية ، يمكن أن يقتصر البحث على مجموعة من السياسات الثابتة المزعومة . السياسة ثابتة إذا كان توزيع الإجراء الذي يتم إرجاعه يعتمد فقط على الدولة الأخيرة التي تمت زيارتها (من تاريخ وكيل المراقبة). يمكن أن يقتصر البحث على السياسات الثابتة الحتمية . تحدد السياسة الثابتة القطعية بشكل حاسم الإجراءات بناءً على الحالة الحالية. نظرًا لأنه يمكن تحديد أي سياسة من هذا القبيل من خلال تعيين من مجموعة الدول إلى مجموعة الإجراءات ، يمكن تحديد هذه السياسات مع مثل هذه التعيينات دون فقدان التعميم.

القوة الغاشمة

نهج القوة الغاشمة ينطوي على خطوتين:

  • لكل سياسة ممكنة ، يتم إرجاع عينة أثناء اتباعها
  • اختر السياسة التي تحقق أكبر عائد متوقع

تتمثل إحدى مشكلات هذا الأمر في أن عدد السياسات يمكن أن يكون كبيرًا ، أو حتى غير محدود. آخر هو أن تباين العائدات قد يكون كبيرًا ، مما يتطلب العديد من العينات لتقدير عائد كل سياسة بدقة.

يمكن التخفيف من حدة هذه المشكلات إذا افترضنا بعض الهياكل والسماح للعينات التي تم إنشاؤها من إحدى السياسات بالتأثير على التقديرات المعدة للآخرين. النهجان الرئيسيان لتحقيق ذلك هما تقدير دالة القيمة والبحث المباشر عن السياسة .

دالة القيمة

تحاول مقاربات دالة القيمة إيجاد سياسة تزيد العائد إلى الحد الأقصى من خلال الحفاظ على مجموعة من تقديرات العوائد المتوقعة لبعض السياسات (عادة إما "الحالية" [على السياسة] أو الأمثل [خارج السياسة]).

تعتمد هذه الأساليب على نظرية عمليات قرار ماركوف ، حيث يتم تعريف الأمثل بمعنى أقوى من المذكور أعلاه: تسمى السياسة الأمثل إذا كانت تحقق أفضل عائد متوقع من أي حالة أولية (أي أن التوزيعات الأولية لا تلعب دور في هذا التعريف). مرة أخرى ، يمكن دائمًا العثور على السياسة المثلى بين السياسات الثابتة.

لتحديد الأمثل بطريقة رسمية ، حدد قيمة السياسةبواسطة

أينلتقف على العودة المرتبطة بما يليمن الحالة الأولية. تعريفكأقصى قيمة ممكنة لـ، أينيسمح للتغيير ،

تسمى السياسة التي تحقق هذه القيم المثلى في كل حالة بالمثالية . من الواضح أن السياسة المثلى بهذا المعنى القوي هي أيضًا سياسة مثالية بمعنى أنها تزيد من العائد المتوقع، حيث، أينهي حالة مأخوذة عشوائيًا من التوزيعمن الحالات الأولية (هكذا).

على الرغم من أن قيم الحالة تكفي لتعريف الأمثل ، إلا أنه من المفيد تحديد قيم الإجراء. اعطاء دولة، إجراءوسياسة، قيمة عمل الزوجتحتيتم تعريفه بواسطة

أينالآن تشير إلى العائد العشوائي المرتبط باتخاذ الإجراء الأولفي الدولةوما يليها، بعد ذلك.

تنص نظرية MDPs على أنه إذاهي السياسة المثلى ، فنحن نتصرف على النحو الأمثل (نتخذ الإجراء الأمثل) من خلال اختيار الإجراء منبأعلى قيمة في كل ولاية ،. وظيفة قيمة العمل لهذه السياسة المثلى () تسمى دالة قيمة الإجراء المثلى ويتم الإشارة إليها عمومًا بواسطة. باختصار ، فإن معرفة وظيفة قيمة الإجراء المثلى وحدها تكفي لمعرفة كيفية التصرف على النحو الأمثل.

بافتراض المعرفة الكاملة بـ MDP ، فإن النهجين الأساسيين لحساب دالة قيمة الإجراء المثلى هما تكرار القيمة وتكرار السياسة . كلا الخوارزميتين تحسب سلسلة من الوظائف() التي تتلاقى إلى. يتضمن حساب هذه الوظائف حساب التوقعات على مساحة الحالة بأكملها ، وهو أمر غير عملي للجميع باستثناء أصغر MDPs (المحدودة). في أساليب التعلم المعزز ، يتم تقريب التوقعات من خلال حساب متوسط ​​على العينات واستخدام تقنيات تقريب الوظيفة للتعامل مع الحاجة إلى تمثيل وظائف القيمة على مساحات عمل الحالة الكبيرة.

طرق مونت كارلو

يمكن استخدام طرق مونت كارلو في خوارزمية تحاكي تكرار السياسة. يتكون تكرار السياسة من خطوتين: تقييم السياسة وتحسينها .

يُستخدم مونت كارلو في خطوة تقييم السياسة. في هذه الخطوة ، بالنظر إلى سياسة ثابتة وحتمية، الهدف هو حساب قيم الدالة(أو تقريب جيد لهم) لجميع أزواج الدولة والعمل. بافتراض (للتبسيط) أن MDP محدود ، وأن الذاكرة الكافية متوفرة لاستيعاب قيم الإجراء وأن المشكلة عرضية وبعد كل حلقة تبدأ واحدة جديدة من حالة أولية عشوائية. بعد ذلك ، تقدير قيمة زوج معين من إجراءات الدولةيمكن حسابها عن طريق حساب متوسط ​​العوائد التي تم أخذ عينات منها والتي نشأت منمتأخر، بعد فوات الوقت. إذا أعطيت الوقت الكافي ، يمكن لهذا الإجراء بناء تقدير دقيقمن وظيفة قيمة العمل. هذا ينتهي من وصف خطوة تقييم السياسة.

في خطوة تحسين السياسة ، يتم الحصول على السياسة التالية عن طريق حساب سياسة الجشع فيما يتعلق بـ: اعطاء دولة، تعيد هذه السياسة الجديدة إجراءً يزيد. في الممارسة العملية ، يمكن للتقييم البطيء أن يؤجل حساب إجراءات التعظيم عند الحاجة إليها.

تتضمن مشكلات هذا الإجراء ما يلي:

  • قد يستغرق الإجراء وقتًا طويلاً في تقييم سياسة دون المستوى الأمثل.
  • إنه يستخدم عينات بشكل غير فعال حيث أن المسار الطويل يحسن التقدير فقط للزوج المفرد للعمل الذي بدأ المسار.
  • عندما تكون العوائد على طول المسارات ذات تباين كبير ، يكون التقارب بطيئًا.
  • يعمل في المشاكل العرضية فقط ؛
  • إنه يعمل في MDPs الصغيرة والمحدودة فقط.

طرق الاختلاف الزمني

يتم تصحيح المشكلة الأولى بالسماح للإجراء بتغيير السياسة (في بعض الحالات أو جميعها) قبل تسوية القيم. قد يكون هذا أيضًا مشكلة لأنه قد يمنع التقارب. تقوم معظم الخوارزميات الحالية بذلك ، مما يؤدي إلى ظهور فئة خوارزميات تكرار السياسة المعممة . تنتمي العديد من أساليب الناقد الممثلين إلى هذه الفئة.

يمكن تصحيح المشكلة الثانية من خلال السماح للمسارات بالمساهمة في أي زوج من الإجراءات بين الدول. قد يساعد هذا أيضًا إلى حد ما في المشكلة الثالثة ، على الرغم من أن الحل الأفضل عندما يكون للعائدات تباين كبير هو طرق Sutton للفرق الزمني (TD) التي تستند إلى معادلة بيلمان العودية . [12] [13] يمكن أن يكون الحساب في طرق TD تدريجيًا (عندما يتم تغيير الذاكرة بعد كل انتقال ويتم التخلص من الانتقال) ، أو دفعة (عندما يتم تجميع الانتقالات ويتم حساب التقديرات مرة واحدة بناءً على الدُفعة) . طرق الدُفعات ، مثل طريقة المربعات الصغرى للفرق الزمني ، [14]قد تستخدم المعلومات الموجودة في العينات بشكل أفضل ، في حين أن الطرق الإضافية هي الخيار الوحيد عندما تكون طرق الدُفعات غير مجدية نظرًا لارتفاع درجة تعقيدها الحسابي أو الذاكرة. تحاول بعض الطرق الجمع بين النهجين. كما تغلبت الأساليب القائمة على الفروق الزمنية على المشكلة الرابعة.

من أجل معالجة المشكلة الخامسة ، يتم استخدام طرق تقريب الوظيفة . يبدأ تقريب الدالة الخطية برسم الخرائطالذي يعين متجهًا محدودًا الأبعاد لكل زوج من الحالة والعمل. بعد ذلك ، قيم الإجراء لزوج الحالة والعمليتم الحصول عليها من خلال الجمع الخطي بين مكوناتمع بعض الأوزان :

تقوم الخوارزميات بعد ذلك بضبط الأوزان ، بدلاً من تعديل القيم المرتبطة بأزواج الحالة الفردية. تم استكشاف الأساليب القائمة على الأفكار من الإحصائيات اللامعلمية (والتي يمكن رؤيتها لبناء ميزاتها الخاصة).

يمكن أيضًا استخدام تكرار القيمة كنقطة بداية ، مما يؤدي إلى ظهور خوارزمية Q-Learning ومتغيراتها العديدة. [15]

تكمن مشكلة استخدام قيم الإجراء في أنها قد تحتاج إلى تقديرات دقيقة للغاية لقيم الإجراءات المتنافسة التي يصعب الحصول عليها عندما تكون العوائد صاخبة ، على الرغم من تخفيف هذه المشكلة إلى حد ما عن طريق طرق الفروق الزمنية. يؤدي استخدام ما يسمى بطريقة تقريب الوظيفة المتوافقة إلى الإضرار بالعمومية والكفاءة. مشكلة أخرى خاصة بـ TD تأتي من اعتمادهم على معادلة بيلمان العودية. معظم طرق TD لها ما يسمى بمعامليمكن أن يقحم باستمرار بين طرق مونت كارلو التي لا تعتمد على معادلات بيلمان وطرق TD الأساسية التي تعتمد كليًا على معادلات بيلمان. يمكن أن يكون هذا فعالًا في تلطيف هذه المشكلة.

البحث المباشر عن السياسة

طريقة بديلة هي البحث مباشرة في (بعض المجموعات الفرعية) فضاء السياسة ، وفي هذه الحالة تصبح المشكلة حالة من التحسين العشوائي . النهجان المتاحان هما طريقتان تعتمدان على التدرج وخالية من التدرج.

تبدأ الطرق القائمة على التدرج ( طرق التدرج السياسي ) برسم خرائط من مساحة (معلمة) ذات أبعاد محدودة إلى فضاء السياسات: بالنظر إلى متجه المعلمات، يتركتشير إلى السياسة المرتبطة. تحديد وظيفة الأداء من خلال

في ظل ظروف معتدلة ، ستكون هذه الوظيفة قابلة للتفاضل كدالة لمتجه المعلمة. إذا كان التدرجكان معروفًا ، يمكن للمرء استخدام صعود التدرج . نظرًا لعدم توفر تعبير تحليلي للتدرج اللوني ، يتوفر فقط تقدير صاخب. يمكن بناء مثل هذا التقدير بعدة طرق ، مما أدى إلى ظهور خوارزميات مثل طريقة ويليامز REINFORCE [16] (والتي تُعرف باسم طريقة نسبة الاحتمالية في أدبيات التحسين القائمة على المحاكاة ). [17] تم استخدام طرق بحث السياسة في سياق الروبوتات . [18] قد تتعطل العديد من طرق البحث عن السياسة في نظام Optima المحلي (حيث أنها تستند إلى البحث المحلي ).

تتجنب فئة كبيرة من الأساليب الاعتماد على معلومات التدرج. وهي تشمل التلدين المحاكي ، والبحث عبر الانتروبيا أو طرق الحساب التطوري . يمكن للعديد من الأساليب الخالية من التدرج أن تحقق (من الناحية النظرية وفي الحد الأقصى) الحد الأمثل عالميًا.

قد تتقارب طرق البحث عن السياسة ببطء في ضوء البيانات المشوشة. على سبيل المثال ، يحدث هذا في المشكلات العرضية عندما تكون المسارات طويلة ويكون تباين العوائد كبيرًا. قد تساعد الأساليب القائمة على دالة القيمة التي تعتمد على الاختلافات الزمنية في هذه الحالة. في السنوات الأخيرة ، تم اقتراح أساليب الممثل - الناقد وأدائها بشكل جيد في مختلف المشاكل. [19]

الخوارزميات القائمة على النموذج

أخيرًا ، يمكن دمج جميع الطرق المذكورة أعلاه مع الخوارزميات التي تتعلم النموذج أولاً. على سبيل المثال ، تتعلم خوارزمية Dyna [20] نموذجًا من التجربة ، وتستخدم ذلك لتوفير المزيد من الانتقالات المنمذجة لوظيفة القيمة ، بالإضافة إلى الانتقالات الحقيقية. يمكن أحيانًا توسيع مثل هذه الأساليب لاستخدام النماذج غير المعلمية ، مثل عندما يتم تخزين التحولات ببساطة و "إعادة تشغيلها" [21] إلى خوارزمية التعلم.

هناك طرق أخرى لاستخدام النماذج غير تحديث دالة القيمة. [22] على سبيل المثال ، في نموذج التحكم التنبئي ، يتم استخدام النموذج لتحديث السلوك مباشرة.

نظرية

إن كلا من سلوكيات العينة المقاربة والمحدودة لمعظم الخوارزميات مفهومة جيدًا. الخوارزميات ذات الأداء الجيد على الإنترنت (معالجة مشكلة الاستكشاف) معروفة.

تم تقديم الاستكشاف الفعال لـ MDPs في Burnetas و Katehakis (1997). [9] ظهرت أيضًا حدود أداء الوقت المحدد للعديد من الخوارزميات ، ولكن من المتوقع أن تكون هذه الحدود فضفاضة إلى حد ما ، وبالتالي هناك حاجة إلى مزيد من العمل لفهم المزايا والقيود النسبية بشكل أفضل.

بالنسبة للخوارزميات الإضافية ، تمت تسوية مشكلات التقارب المقارب [ التوضيح مطلوب ] . تتقارب الخوارزميات القائمة على الاختلاف الزمني في ظل مجموعة شروط أوسع مما كان ممكنًا في السابق (على سبيل المثال ، عند استخدامها مع تقريب تعسفي وسلس للوظيفة).

بحث

تشمل موضوعات البحث

  • الأساليب التكيفية التي تعمل مع عدد أقل (أو لا) من المعلمات في ظل عدد كبير من الظروف
  • معالجة مشكلة الاستكشاف في MDPs الكبيرة
  • مجموعات مع الأطر المنطقية [23]
  • التقييمات التجريبية واسعة النطاق
  • التعلم والعمل بموجب المعلومات الجزئية (على سبيل المثال ، استخدام تمثيل الحالة التنبؤية )
  • التعلم التعزيزي المعياري والهرمي [24]
  • تحسين وظيفة القيمة الحالية وطرق البحث عن السياسة
  • الخوارزميات التي تعمل بشكل جيد مع مساحات العمل الكبيرة (أو المستمرة)
  • نقل التعلم [25]
  • التعلم مدى الحياة
  • التخطيط الفعال المستند إلى العينات (على سبيل المثال ، بناءً على بحث شجرة مونت كارلو ).
  • الكشف عن الأخطاء في مشاريع البرمجيات [26]
  • الدافع الجوهري الذي يميز سلوكيات البحث عن المعلومات ، وسلوكيات الفضول عن السلوكيات المعتمدة على المهام الموجهة نحو الهدف (عادةً) من خلال تقديم وظيفة المكافأة على أساس تعظيم المعلومات الجديدة [27] [28] [29]
  • يعد التعلم المعزز متعدد الوكلاء أو الموزع موضوعًا مهمًا. التطبيقات آخذة في التوسع. [30]
  • التعلم المعزز الناقد الفاعل
  • تخضع خوارزميات التعلم المعزز مثل تعلم TD قيد التحقيق كنموذج للتعلم القائم على الدوبامين في الدماغ. في هذا النموذج ، تعمل الإسقاطات الدوبامينية من المادة السوداء إلى العقد القاعدية كخطأ تنبؤ.
  • تم استخدام التعلم المعزز كجزء من نموذج تعلم المهارات البشرية ، خاصة فيما يتعلق بالتفاعل بين التعلم الضمني والصريح في اكتساب المهارات (كان أول منشور عن هذا التطبيق في 1995-1996).
  • سيطرة ركاب مركزية
  • التداول الخوارزمي والتنفيذ الأمثل [31]
  • تعظيم الاستفادة من موارد الحوسبة [32] [33] [34]
  • تقليل الهدر في سلسلة التوريد الغذائي [35] [36]

مقارنة بين خوارزميات التعلم المعزز

الخوارزمية وصف سياسة مساحة العمل مساحة الدولة المشغل أو العامل
مونتي كارلو كل زيارة لمونتي كارلو إما منفصله منفصله عينة يعني
Q- التعلم الدولة - العمل - المكافأة - الدولة خارج السياسة منفصله منفصله Q- القيمة
سارسا الدولة - العمل - المكافأة - الدولة - العمل على السياسة منفصله منفصله Q- القيمة
Q- التعلم - لامدا الدولة - العمل - المكافأة - الدولة مع آثار الأهلية خارج السياسة منفصله منفصله Q- القيمة
سارسا - لامدا الدولة - العمل - المكافأة - الدولة - الإجراءات مع آثار الأهلية على السياسة منفصله منفصله Q- القيمة
DQN شبكة Deep Q Network خارج السياسة منفصله مستمر Q- القيمة
DDPG التدرج العميق للسياسة الحتمية خارج السياسة مستمر مستمر Q- القيمة
A3C خوارزمية الناقد - المميزات غير المتزامنة على السياسة مستمر مستمر مميزات
ناف Q- التعلم مع وظائف ميزة طبيعية خارج السياسة مستمر مستمر مميزات
TRPO الثقة في نهج المنطقة على السياسة مستمر مستمر مميزات
PPO تحسين النهج القريب على السياسة مستمر مستمر مميزات
TD3 التوأم المتأخر التدرج العميق للسياسة الحتمية خارج السياسة مستمر مستمر Q- القيمة
كيس الممثل الناقد خارج السياسة مستمر مستمر مميزات

التعلم التعزيزي النقابي

تجمع مهام التعلم التعزيزي النقابي بين جوانب مهام التعلم التلقائي العشوائية ومهام تصنيف أنماط التعلم الخاضعة للإشراف. في مهام التعلم التعزيزي النقابي ، يتفاعل نظام التعلم في حلقة مغلقة مع بيئته. [37]

التعلم المعزز العميق

يوسع هذا النهج التعلم المعزز باستخدام شبكة عصبية عميقة ودون تصميم صريح لمساحة الدولة. [38] العمل على تعلم ألعاب ATARI بواسطة Google DeepMind زاد من الاهتمام بالتعلم المعزز العميق أو التعلم التعزيزي الشامل . [39]

التعلم التعزيزي العميق الخصامي

التعلم التعزيزي العميق الخصامي هو مجال نشط للبحث في التعلم المعزز الذي يركز على نقاط الضعف في السياسات المكتسبة. في هذا المجال البحثي ، أظهرت بعض الدراسات في البداية أن سياسات التعلم المعزز عرضة للتلاعب غير المحسوس بالخصم. [40] [41] في حين تم اقتراح بعض الأساليب للتغلب على هذه الحساسيات ، فقد تبين في أحدث الدراسات أن هذه الحلول المقترحة بعيدة كل البعد عن تقديم تمثيل دقيق لنقاط الضعف الحالية لسياسات التعلم المعزز العميق. [42]

التعلم المعزز المعكوس

في التعلم التعزيزي العكسي (IRL) ، لا يتم إعطاء وظيفة مكافأة. بدلاً من ذلك ، يتم الاستدلال على وظيفة المكافأة بالنظر إلى السلوك المرصود من خبير. الفكرة هي تقليد السلوك المرصود ، والذي غالبًا ما يكون مثاليًا أو قريبًا من المستوى الأمثل. [43]

التعلم المعزز الآمن

يمكن تعريف التعلم المعزز الآمن (SRL) على أنه عملية سياسات التعلم التي تزيد من توقع العائد في المشكلات التي من المهم فيها ضمان أداء معقول للنظام و / أو احترام قيود السلامة أثناء عمليات التعلم و / أو النشر. [44]

التعلم المعزز تحت الإشراف الجزئي (PSRL)

في خوارزميات PSRL ، يتم الجمع بين مزايا النهج الخاضع للإشراف والقائمة على RL بشكل تآزري. على سبيل المثال ، يمكن تحسين سياسة التحكم التي تم تعلمها من خلال نهج قائم على ANN العكسي للتحكم في نظام غير خطي باستخدام RL وبالتالي تجنب التكلفة الحسابية المتكبدة من خلال البدء من سياسة عشوائية في RL التقليدية. يمكن للنهج الخاضعة للإشراف الجزئي أن تخفف من الحاجة إلى بيانات تدريب مكثفة في التعلم الخاضع للإشراف مع تقليل الحاجة إلى استكشاف عشوائي شامل ومكلف في RL البحت. [2]

انظر أيضا

المراجع

  1. ^ كالبلينج ، ليزلي ب . ليتمان ، مايكل ل . مور ، أندرو دبليو (1996). "التعلم المعزز: مسح" . مجلة أبحاث الذكاء الاصطناعي . 4 : 237-285. arXiv : CS / 9605103 . دوى : 10.1613 / jair.301 . S2CID  1708582 . مؤرشفة من الأصلي في 2001-11-20.
  2. ^ أ ب بانديان ، ب. جاغاناثا ؛ نويل ، ماثيو ميثرا (1 سبتمبر 2018). "التحكم في مفاعل حيوي باستخدام خوارزمية تعلم تقوية جديدة تحت الإشراف الجزئي" . مجلة التحكم في العمليات . 69 : 16-29. دوى : 10.1016 / j.jprocont.2018.07.013 . ISSN 0959-1524 . S2CID 126074778 .  
  3. ^ فان أوترلو ، م. ويرينج ، م. (2012). التعلم المعزز وعمليات اتخاذ القرار ماركوف . التعلم المعزز . التكيف والتعلم والتحسين. المجلد. 12. ص 3 - 42. دوى : 10.1007 / 978-3-642-27645-3_1 . رقم ISBN 978-3-642-27644-6.
  4. ^ راسل ، ستيوارت جيه ؛ نورفيج ، بيتر (2010). الذكاء الاصطناعي: نهج حديث (الطبعة الثالثة). نهر السرج العلوي ، نيو جيرسي. ص 830 ، 831. ISBN 978-0-13-604259-4.
  5. ^ لي ، دايول ؛ سيو ، هيوجونغ ؛ جونغ ، مين وان (21 يوليو 2012). "الأساس العصبي لتعلم التعزيز واتخاذ القرار" . المراجعة السنوية لعلم الأعصاب . 35 (1): 287-308. دوى : 10.1146 / annurev-neuro-062111-150512 . PMC 3490621 . بميد 22462543 .  
  6. ^ شيه ، زهاومينغ وآخرون. " ALLSTEPS: المنهج الدراسي ‐ التعلم من مهارات خطوة خطوة ." منتدى رسومات الحاسوب. المجلد. 39. رقم 8. 2020.
  7. ^ ساتون وبارتو 1998 ، الفصل 11.
  8. ^ جوسافي ، أبهيجيت (2003). التحسين القائم على المحاكاة: تقنيات التحسين البارامترية والتعزيز . سلسلة واجهات بحوث العمليات / علوم الحاسب. سبرينغر. رقم ISBN 978-1-4020-7454-7.
  9. ^ أ ب Burnetas ، Apostolos N. ؛ كاتيهاكيس ، مايكل ن. (1997) ، "السياسات التكيفية المثلى لعمليات قرار ماركوف" ، رياضيات بحوث العمليات ، 22 : 222-255 ، دوى : 10.1287 / مور ، 22.1.222
  10. ^ توكيك ميشيل. Palm ، Günther (2011) ، "Value-Difference-Based Exploration: Adaptive Control between Epsilon-Greedy and Softmax" (PDF) ، KI 2011: Advances in Artificial Intelligence ، Lecture Notes in Computer Science، vol. 7006 ، سبرينغر ، ص 335–346 ، ISBN  978-3-642-24455-1
  11. ^ أ ب "التعلم المعزز: مقدمة" (PDF) .
  12. ^ ساتون ، ريتشارد س. (1984). التخصيص المؤقت للائتمان في التعلم المعزز (أطروحة دكتوراه). جامعة ماساتشوستس ، أمهيرست ، ماساتشوستس.
  13. ^ ساتون وبارتو 1998 ، §6. تعلم الفروق الزمنية .
  14. ^ برادتك ، ستيفن ج . بارتو ، أندرو ج. (1996). "تعلم التنبؤ بطريقة الفروق الزمنية". تعلم الآلة . 22 : 33-57. سيتسيركس 10.1.1.143.857 . دوى : 10.1023 / أ: 1018056104778 . S2CID 20327856 .  
  15. ^ واتكينز ، كريستوفر جي سي إتش (1989). التعلم من المكافآت المتأخرة (PDF) (أطروحة دكتوراه). كينجز كوليدج ، كامبريدج ، المملكة المتحدة.
  16. ^ وليامز ورونالد ج. (1987). "فئة من خوارزميات تقدير التدرج للتعلم المعزز في الشبكات العصبية". وقائع المؤتمر الدولي الأول IEEE للشبكات العصبية . سيتسيركس 10.1.1.129.8871 . 
  17. ^ بيترز ، جان . فيجاياكومار ، سيثو ؛ شال ، ستيفان (2003). "التعلم المعزز للروبوتات البشرية" (PDF) . المؤتمر الدولي IEEE-RAS حول الروبوتات البشرية .
  18. ^ ديزنروث ، مارك بيتر ؛ نيومان ، جيرهارد ؛ بيترز ، يناير (2013). مسح حول سياسة البحث عن الروبوتات (PDF) . أسس واتجاهات في الروبوتات. المجلد. 2. ناشرون الآن. ص 1 - 142. دوى : 10.1561 / 2300000021 . hdl : 10044/1/12051 .
  19. ^ جولياني ، آرثر (2016-12-17). "التعلم المعزز البسيط باستخدام Tensorflow الجزء 8: وكلاء الناقد الفاعل غير المتزامن (A3C)" . متوسطة . تم الاسترجاع 2018/02/22 .
  20. ^ ساتون ، ريتشارد (1990). "البنى المتكاملة للتعلم والتخطيط والرد على أساس البرمجة الديناميكية". التعلم الآلي: وقائع ورشة العمل الدولية السابعة .
  21. ^ لين ، لونج جي (1992). "عوامل رد الفعل ذاتية التحسين على أساس التعلم المعزز والتخطيط والتدريس". حجم تعلم الآلة 8 .
  22. ^ فان هاسيلت ، هادو ؛ هيسيل ، ماتيو ؛ أصلانيدس ، جون (2019). "متى تستخدم النماذج البارامترية في التعلم المعزز؟". التقدم في نظم معالجة المعلومات العصبية 32 .
  23. ^ ريفيريت ، ريجيس ؛ جاو ، يانغ (2019). "إطار الحجة الاحتمالية لعوامل التعلم المعزز". الوكلاء المستقلون والأنظمة متعددة العوامل . 33 (1-2): 216-274. دوى : 10.1007 / s10458-019-09404-2 . S2CID 71147890 . 
  24. ^ كولكارني ، تيجاس د. Narasimhan، Karthik R.؛ سعيدي ، أردافان ؛ تينينباوم ، جوشوا ب. (2016). "التعلم الهرمي العميق المعزز: دمج التجريد الزمني والتحفيز الداخلي" . وقائع المؤتمر الدولي الثلاثين لأنظمة معالجة المعلومات العصبية . NIPS'16. الولايات المتحدة الأمريكية: شركة Curran Associates Inc .: 3682–3690. arXiv : 1604.06057 . بيب كود : 2016 arXiv160406057K . رقم ISBN 978-1-5108-3881-9.
  25. ^ جورج كريمبانال ، ثومين ؛ رولان بوفانايس (2019). "خرائط ذاتية التنظيم لتخزين ونقل المعرفة في التعلم المعزز". السلوك التكيفي . 27 (2): 111-126. arXiv : 1811.08318 . دوى : 10.1177 / 1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .  
  26. ^ "حول استخدام التعلم المعزز لاختبار ميكانيكا الألعاب: ACM - أجهزة الكمبيوتر في الترفيه" . cie.acm.org . تم الاسترجاع 2018/11/27 .
  27. ^ كابلان ، ف. Oudeyer ، P. (2004). "تعظيم تقدم التعلم: نظام مكافأة داخلي من أجل التنمية". في إيدا ، ف. فايفر ، ر. فولاذ ، لام ؛ كونيوشي ، واي ، محرران. الذكاء الاصطناعي المتجسد . مذكرات محاضرة في علوم الكمبيوتر. المجلد. 3139. برلين ؛ هايدلبرغ: سبرينغر. ص 259 - 270. دوى : 10.1007 / 978-3-540-27833-7_19 . رقم ISBN 978-3-540-22484-6.
  28. ^ كليوبين ، أ. بولاني ، د. نيهانيف ، سي (2008). "احتفظ بخياراتك مفتوحة: مبدأ القيادة القائم على المعلومات لأنظمة الاستشعار الحركية" . بلوس وان . 3 (12): e4018. بيب كود : 2008 PLoSO ... 3.4018K . دوى : 10.1371 / journal.pone.0004018 . PMC 2607028 . بميد 19107219 .  
  29. ^ بارتو ، إيه جي (2013). "الدافع الجوهري والتعلم المعزز". التعلم بدوافع جوهرية في الأنظمة الطبيعية والاصطناعية . برلين؛ هايدلبرغ: سبرينغر. ص 17-47.
  30. ^ "تعزيز التعلم / نجاحات التعلم المعزز" . umichrl.pbworks.com . تم الاسترجاع 2017/08/06 .
  31. ^ دابيريوس ، كيفن. جرانات ، إلفين ؛ كارلسون ، باتريك (2020). "التنفيذ العميق - التعلم التعزيزي القائم على القيمة والسياسة للتداول وضرب معايير السوق" . مجلة التعلم الآلي في المالية . 1 .
  32. ^ داي ، سومديب ؛ سينغ ، أميت كومار ؛ وانغ ، شياوهانغ ؛ ماكدونالد ماير ، كلاوس (مارس 2020). "التعلم المعزز لتفاعل المستخدم من أجل الطاقة والكفاءة الحرارية لأجهزة MPSoCs المتنقلة لوحدة المعالجة المركزية GPU" . 2020 معرض تصميم واختبار الأتمتة في أوروبا (DATE) : 1728-1733. دوى : 10.23919 / DATE48585.2020.9116294 . رقم ISBN 978-3-9819263-4-7. S2CID  219858480 .
  33. ^ كويستيد ، توني. "الهواتف الذكية تصبح أكثر ذكاءً مع ابتكار Essex | Business Weekly | أخبار التكنولوجيا | أخبار الأعمال | كامبريدج وشرق إنجلترا" . www.businessweekly.co.uk . تم الاسترجاع 2021/06/17 .{{cite web}}: CS1 maint: url-status (link)
  34. ^ وليامز ، ريانون (21 يوليو 2020). "الهواتف الذكية المستقبلية" ستطيل عمر بطاريتها من خلال مراقبة سلوك أصحابها "" . i . تم الاسترجاع 2021-06-17 .{{cite web}}: CS1 maint: url-status (link)
  35. ^ داي ، سومديب ؛ ساها سومان سينغ ، أميت كومار ؛ ماكدونالد ماير ، كلاوس (2022-02-12). "SmartNoshWaste: استخدام Blockchain والتعلم الآلي والحوسبة السحابية ورمز الاستجابة السريعة لتقليل هدر الطعام في المدن الذكية اللامركزية 3.0" . المدن الذكية . 5 (1): 162–176. دوى : 10.3390 / smartcities5010011 . ISSN 2624-6511 . 
  36. ^ ستانلي ، جون. "بدأ هذا المؤسس مشروعًا تقنيًا لتقليل هدر الطعام وتحسين الاستدامة من أجل مستقبل أفضل" . رجل أعمال . تم الاسترجاع 2022-03-07 .
  37. ^ Soucek ، Branko (6 أيار 1992). البرمجة الديناميكية والجينية والفوضوية: سلسلة تكنولوجيا الكمبيوتر من الجيل السادس . John Wiley & Sons، Inc. ص. 38. رقم ISBN 0-471-55717-X.
  38. ^ فرانسوا لافيت ، فينسنت ؛ وآخرون. (2018). "مقدمة في التعلم المعزز العميق". أسس واتجاهات في التعلم الآلي . 11 (3-4): 219–354. arXiv : 1811.12560 . بيب كود : 2018arXiv181112560F . دوى : 10.1561 / 2200000071 . S2CID 54434537 . 
  39. ^ منيه ، فولوديمير ؛ وآخرون. (2015). "التحكم على مستوى الإنسان من خلال التعلم المعزز العميق" . الطبيعة . 518 (7540): 529-533. بيب كود : 2015 Natur.518..529M . دوى : 10.1038 / nature14236 . بميد 25719670 . S2CID 205242740 .  
  40. ^ جودفيلو ، إيان ؛ شلينز ، جوناثان ؛ سيجيدي ، كريستيان (2015). "شرح وتسخير أمثلة الخصومة". المؤتمر الدولي لتمثيل التعلم . arXiv : 1412.6572 .
  41. ^ بيتر ، هوانغ ، ساندي بابيرنو ، نيكولاس جودفيلو ، إيان دوان ، يان أبيل (2017/02/07). الهجمات العدائية على سياسات الشبكة العصبية . OCLC 1106256905 . 
  42. ^ كوركماز ، إزجي (2022). "سياسات التعلم المعززة العميقة تعلم ميزات الخصومة المشتركة عبر MDPs". مؤتمر AAAI السادس والثلاثون حول الذكاء الاصطناعي (AAAI-22) . arXiv : 2112.09025 .
  43. ^ Ng ، AY ؛ راسل ، SJ (2000). "خوارزميات لتعلم التعزيز العكسي" (PDF) . متابعة إجراءات ICML '00 للمؤتمر الدولي السابع عشر للتعلم الآلي . ص 663 - 670. رقم ISBN  1-55860-707-2.
  44. ^ جارسيا ، خافيير ؛ فرنانديز ، فرناندو (1 يناير 2015). "مسح شامل عن التعلم التعزيزي الآمن" (PDF) . مجلة أبحاث التعلم الآلي . 16 (1): 1437-1480.

قراءات إضافية

روابط خارجية