التصنيف الإحصائي

من ويكيبيديا، الموسوعة الحرة
اذهب إلى الملاحة اذهب للبحث

في الإحصاء ، التصنيف هو مشكلة تحديد أي مجموعة من الفئات (المجموعات الفرعية ) تنتمي الملاحظة (أو الملاحظات). من الأمثلة على ذلك تعيين بريد إلكتروني معين إلى فئة "البريد العشوائي" أو "غير البريد العشوائي" ، وتعيين تشخيص لمريض معين بناءً على الخصائص التي تمت ملاحظتها للمريض (الجنس ، وضغط الدم ، ووجود أو عدم ظهور أعراض معينة ، وما إلى ذلك) .

في كثير من الأحيان ، يتم تحليل الملاحظات الفردية في مجموعة من الخصائص القابلة للقياس الكمي ، والمعروفة باسم المتغيرات أو الميزات التفسيرية . يمكن أن تكون هذه الخصائص فئوية بشكل مختلف (على سبيل المثال "A" ، "B" ، "AB" أو "O" ، لفصيلة الدم ) ، ترتيبي (على سبيل المثال "كبير" ، "متوسط" أو "صغير") ، قيمة صحيحة (على سبيل المثال عدد تكرارات كلمة معينة في بريد إلكتروني ) أو ذات قيمة حقيقية (مثل قياس ضغط الدم ).

تُعرف الخوارزمية التي تنفذ التصنيف ، خاصة في التنفيذ الملموس ، باسم المصنف . يشير مصطلح "المصنف" أحيانًا أيضًا إلى الوظيفة الرياضية ، التي يتم تنفيذها بواسطة خوارزمية تصنيف ، والتي تعين بيانات الإدخال إلى فئة.

المصطلحات عبر المجالات متنوعة جدا. في الإحصاء ، حيث يتم التصنيف غالبًا باستخدام الانحدار اللوجستي أو إجراء مشابه ، تسمى خصائص الملاحظات المتغيرات التفسيرية (أو المتغيرات المستقلة ، والمنحدرات ، وما إلى ذلك) ، وتُعرف الفئات التي سيتم التنبؤ بها بالنتائج ، والتي تعتبر تكون القيم الممكنة للمتغير التابع . في التعلم الآلي ، تُعرف الملاحظات غالبًا باسم الأمثلة ، ويطلق على المتغيرات التوضيحية اسم الميزات (مجمعة في ناقل الميزة ) ، والفئات المحتملة التي يمكن توقعها هي الفئات. قد تستخدم المجالات الأخرى مصطلحات مختلفة: على سبيل المثال في إيكولوجيا المجتمع ، يشير مصطلح "التصنيف" عادة إلى تحليل الكتلة .

العلاقة بالمشاكل الأخرى

يعد التصنيف والتجميع أمثلة لمشكلة عامة تتمثل في التعرف على الأنماط ، وهي تخصيص نوع من قيمة المخرجات لقيمة إدخال معينة. ومن الأمثلة الأخرى الانحدار ، الذي يعين مخرجات ذات قيمة حقيقية لكل مدخل ؛ تصنيف التسلسل ، الذي يعين فئة لكل عضو في سلسلة من القيم (على سبيل المثال ، جزء من علامات الكلام ، الذي يعين جزءًا من الكلام لكل كلمة في جملة الإدخال) ؛ الاعراب ، الذي يعين شجرة تحليل لجملة إدخال ، تصف البنية النحوية للجملة ؛ إلخ.

تصنيف فرعي شائع هو التصنيف الاحتمالي . تستخدم الخوارزميات من هذا النوع الاستدلال الإحصائي للعثور على أفضل فئة لمثيل معين. على عكس الخوارزميات الأخرى ، التي تنتج ببساطة فئة "أفضل" ، تنتج الخوارزميات الاحتمالية احتمالية أن يكون المثيل عضوًا في كل فئة من الفئات المحتملة. عادةً ما يتم اختيار أفضل فئة على أنها ذات أعلى احتمالية. ومع ذلك ، فإن مثل هذه الخوارزمية لها مزايا عديدة مقارنة بالمصنفات غير الاحتمالية:

  • يمكنه إخراج قيمة ثقة مرتبطة باختياره (بشكل عام ، يُعرف المصنف الذي يمكنه القيام بذلك باسم المصنف المرجّح بالثقة ).
  • في المقابل ، يمكن أن تمتنع عن التصويت عندما تكون ثقتها في اختيار أي ناتج معين منخفضة للغاية.
  • بسبب الاحتمالات التي يتم إنشاؤها ، يمكن دمج المصنفات الاحتمالية بشكل أكثر فاعلية في مهام التعلم الآلي الأكبر ، بطريقة تتجنب جزئيًا أو كليًا مشكلة انتشار الخطأ .

كثرة الإجراءات

قام فيشر بالعمل المبكر على التصنيف الإحصائي ، [1] [2] في سياق مشاكل مجموعتين ، مما أدى إلى وظيفة فيشر التمييزية الخطية كقاعدة لتعيين مجموعة لملاحظة جديدة. [3] افترض هذا العمل المبكر أن قيم البيانات داخل كل من المجموعتين لها توزيع طبيعي متعدد المتغيرات . كما تم النظر في امتداد هذا السياق نفسه إلى أكثر من مجموعتين مع وجود قيود مفروضة على أن قاعدة التصنيف يجب أن تكون خطية . [3] [4] سمح العمل اللاحق للتوزيع الطبيعي متعدد المتغيرات للمصنف بأن يكون غير خطي : ​​[5]يمكن اشتقاق العديد من قواعد التصنيف بناءً على تعديلات مختلفة لمسافة ماهالانوبيس ، مع ملاحظة جديدة يتم تعيينها للمجموعة التي مركزها لديه أدنى مسافة معدلة من الملاحظة.

إجراءات بايزي

على عكس الإجراءات المتكررة ، توفر إجراءات التصنيف Bayesian طريقة طبيعية لمراعاة أي معلومات متوفرة حول الأحجام النسبية للمجموعات المختلفة ضمن إجمالي السكان. [6] تميل الإجراءات البايزية إلى أن تكون باهظة التكلفة من الناحية الحسابية ، وفي الأيام التي سبقت تطوير سلسلة ماركوف لحسابات مونت كارلو ، تم وضع تقديرات تقريبية لقواعد التجميع البايزية. [7]

تتضمن بعض إجراءات بايز حساب احتمالات عضوية المجموعة : توفر هذه نتيجة أكثر إفادة من الإسناد البسيط لتسمية مجموعة واحدة لكل ملاحظة جديدة.

تصنيف ثنائي ومتعدد الطبقات

يمكن اعتبار التصنيف على أنه مشكلتين منفصلتين - التصنيف الثنائي والتصنيف متعدد الفئات . في التصنيف الثنائي ، وهي مهمة مفهومة بشكل أفضل ، يتم تضمين فئتين فقط ، بينما يتضمن التصنيف متعدد الفئات تعيين كائن إلى فئة من عدة فئات. [8] نظرًا لأن العديد من طرق التصنيف قد تم تطويرها خصيصًا للتصنيف الثنائي ، غالبًا ما يتطلب التصنيف متعدد الفئات الاستخدام المشترك لمصنفات ثنائية متعددة.

نواقل الميزة

تصف معظم الخوارزميات مثيلًا فرديًا يتم التنبؤ بفئته باستخدام متجه سمة للخصائص الفردية والقابلة للقياس للمثال. تسمى كل خاصية ميزة ، تُعرف أيضًا في الإحصائيات كمتغير توضيحي (أو متغير مستقل ، على الرغم من أن الميزات قد تكون أو لا تكون مستقلة إحصائيًا ). قد تكون الميزات ثنائية بشكل مختلف (على سبيل المثال "تشغيل" أو "إيقاف تشغيل") ؛ قاطع (على سبيل المثال "A" ، "B" ، "AB" أو "O" ، لفصيلة الدم ) ؛ ترتيبي (مثل "كبير" أو "متوسط" أو "صغير") ؛ عدد صحيح (على سبيل المثال عدد تكرارات كلمة معينة في بريد إلكتروني) ؛ أوالقيمة الحقيقية (مثل قياس ضغط الدم). إذا كان المثال عبارة عن صورة ، فقد تتوافق قيم الميزة مع وحدات البكسل في الصورة ؛ إذا كان المثال جزءًا من النص ، فقد تكون قيم الميزة عبارة عن تكرار حدوث كلمات مختلفة. تعمل بعض الخوارزميات فقط من حيث البيانات المنفصلة وتتطلب أن يتم تقسيم البيانات ذات القيمة الحقيقية أو ذات القيمة الصحيحة إلى مجموعات (على سبيل المثال أقل من 5 أو بين 5 و 10 أو أكبر من 10).

المصنفات الخطية

يمكن صياغة عدد كبير من الخوارزميات الخاصة بالتصنيف من حيث الوظيفة الخطية التي تعين درجة لكل فئة ممكنة k من خلال الجمع بين متجه الميزة لمثيل مع متجه للأوزان ، باستخدام حاصل الضرب النقطي . الفئة المتوقعة هي الفئة الحاصلة على أعلى الدرجات. يُعرف هذا النوع من وظيفة النتيجة بوظيفة التوقع الخطي وله الشكل العام التالي:

حيث X i هو متجه الميزة على سبيل المثال i ، β k هو متجه الأوزان المقابلة للفئة k ، والنتيجة ( X i ، k ) هي الدرجة المرتبطة بتعيين المثال i للفئة k . في نظرية الاختيار المنفصل ، حيث تمثل الأمثلة الأشخاص وتمثل الفئات الخيارات ، تعتبر الدرجة هي الأداة المساعدة المرتبطة بالشخص الذي أختار الفئة k .

تُعرف الخوارزميات مع هذا الإعداد الأساسي باسم المصنفات الخطية . ما يميزهم هو إجراء تحديد (التدريب) الأوزان / المعاملات المثلى وطريقة تفسير النتيجة.

تتضمن أمثلة هذه الخوارزميات

الخوارزميات

نظرًا لعدم وجود شكل واحد من أشكال التصنيف مناسب لجميع مجموعات البيانات ، فقد تم تطوير مجموعة أدوات كبيرة من خوارزميات التصنيف. الأكثر شيوعًا هي: [9]

التقييم

يعتمد أداء المصنف بشكل كبير على خصائص البيانات المراد تصنيفها. لا يوجد مصنف واحد يعمل بشكل أفضل في جميع المشكلات المحددة (ظاهرة يمكن تفسيرها من خلال نظرية لا غداء مجاني ). تم إجراء العديد من الاختبارات التجريبية لمقارنة أداء المصنف ولإيجاد خصائص البيانات التي تحدد أداء المصنف. ومع ذلك ، فإن تحديد مصنف مناسب لمشكلة معينة لا يزال فنًا أكثر منه علمًا.

تعتبر دقة المقاييس والاسترجاع من المقاييس الشائعة المستخدمة لتقييم جودة نظام التصنيف. في الآونة الأخيرة ، تم استخدام منحنيات خاصية تشغيل المستقبِل (ROC) لتقييم المقايضة بين المعدلات الإيجابية الحقيقية والخاطئة لخوارزميات التصنيف.

كمقياس للأداء ، يتميز معامل عدم اليقين على الدقة البسيطة من حيث أنه لا يتأثر بالأحجام النسبية للفئات المختلفة. [10] علاوة على ذلك ، لن تعاقب الخوارزمية لمجرد إعادة ترتيب الفئات.

مجالات التطبيق

التصنيف له العديد من التطبيقات. في بعض هذه ، يتم استخدامه كإجراء للتنقيب عن البيانات ، بينما في حالات أخرى يتم إجراء نمذجة إحصائية أكثر تفصيلاً.

انظر أيضا

المراجع

  1. ^ فيشر ، را (1936). "استخدام قياسات متعددة في مشاكل التصنيفية". حوليات علم تحسين النسل . 7 (2): 179-188. دوى : 10.1111 / j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  2. ^ فيشر ، را (1938). "الاستخدام الإحصائي للقياسات المتعددة". حوليات علم تحسين النسل . 8 (4): 376-386. دوى : 10.1111 / j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
  3. ^ a b Gnanadesikan ، R. (1977) طرق تحليل البيانات الإحصائية للملاحظات متعددة المتغيرات ، وايلي. ISBN 0-471-30845-5 (ص.83-86) 
  4. ^ راو ، سي آر (1952) الأساليب الإحصائية المتقدمة في التحليل متعدد المتغيرات ، وايلي. (القسم 9 ج)
  5. ^ أندرسون ، TW (1958) مقدمة في التحليل الإحصائي متعدد المتغيرات ، وايلي.
  6. ^ بيندر ، دي ايه (1978). "تحليل الكتلة بايزي". بيومتريكا . 65 : 31-38. دوى : 10.1093 / بيوميت / 65.1.31 .
  7. ^ بيندر ، ديفيد أ. (1981). "تقريبية لقواعد التجميع بايزي". بيومتريكا . 68 : 275 - 285. دوى : 10.1093 / biomet / 68.1.275.003 .
  8. ^ Har-Peled ، S. ، Roth ، D. ، Zimak ، D. (2003) "Constraint Classification for Multiclass Classification and Ranking." في: Becker، B.، Thrun، S. ، Obermayer، K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference ، MIT Press. ردمك 0-262-02550-7 
  9. ^ "جولة في أفضل 10 خوارزميات للمبتدئين في التعلم الآلي" . مدمج . 2018-01-20 . تم الاسترجاع 2019/06/10 .
  10. ^ بيتر ميلز (2011). "التصنيف الإحصائي الفعال للقياسات الساتلية". المجلة الدولية للاستشعار عن بعد . 32 (21): 6109-6132. arXiv : 1202.2194 . بيب كود : 2011 IJRS ... 32.6109M . دوى : 10.1080 / 01431161.2010.507795 . S2CID 88518570 .