الميزة (التعلم الآلي)

في التعلم الآلي والتعرف على الأنماط ، الميزة هي خاصية فردية قابلة للقياس أو خاصية لظاهرة ما. [1] يعد اختيار الميزات المفيدة والتمييزية والمستقلة عنصرًا حاسمًا في الخوارزميات الفعالة في التعرف على الأنماط والتصنيف والانحدار . عادةً ما تكون الميزات رقمية، ولكن يتم استخدام الميزات الهيكلية مثل السلاسل والرسوم البيانية في التعرف على الأنماط النحوية . يرتبط مفهوم "الميزة" بمفهوم المتغير التوضيحي المستخدم في التقنيات الإحصائية مثل الانحدار الخطي .

أنواع الميزات

في هندسة الميزات، يتم استخدام نوعين من الميزات بشكل شائع: عددية وفئوية.

الميزات العددية هي قيم مستمرة يمكن قياسها على مقياس. تشمل أمثلة الميزات الرقمية العمر والطول والوزن والدخل. يمكن استخدام الميزات الرقمية في خوارزميات التعلم الآلي مباشرة. [2]

الميزات الفئوية هي قيم منفصلة يمكن تجميعها في فئات. تتضمن أمثلة الميزات الفئوية الجنس واللون والرمز البريدي. عادةً ما تحتاج الميزات الفئوية إلى تحويلها إلى ميزات رقمية قبل استخدامها في خوارزميات التعلم الآلي. يمكن القيام بذلك باستخدام مجموعة متنوعة من التقنيات، مثل التشفير الفردي، وترميز الملصقات، والتشفير الترتيبي.

يعتمد نوع الميزة المستخدمة في هندسة الميزات على خوارزمية التعلم الآلي المحددة المستخدمة. يمكن لبعض خوارزميات التعلم الآلي، مثل أشجار القرار، التعامل مع الميزات العددية والفئوية. يمكن لخوارزميات التعلم الآلي الأخرى، مثل الانحدار الخطي، التعامل مع الميزات الرقمية فقط.

تصنيف

يمكن وصف الميزة الرقمية بشكل ملائم بواسطة ناقل الميزة. إحدى طرق تحقيق التصنيف الثنائي هي استخدام دالة توقع خطية (متعلقة بالإدراك الحسي ) مع ناقل ميزة كمدخل. تتكون الطريقة من حساب المنتج العددي بين ناقل الميزة ومتجه الأوزان، وتأهيل تلك الملاحظات التي تتجاوز نتيجتها العتبة.

تتضمن خوارزميات التصنيف من ناقل الميزات تصنيف أقرب جار ، والشبكات العصبية ، والتقنيات الإحصائية مثل النهج البايزي .

أمثلة

في التعرف على الحروف ، قد تتضمن الميزات رسومًا بيانية تحسب عدد وحدات البكسل السوداء على طول الاتجاهات الأفقية والرأسية، وعدد الثقوب الداخلية، واكتشاف السكتة الدماغية وغيرها الكثير.

في التعرف على الكلام ، يمكن أن تتضمن ميزات التعرف على الصوتيات نسب الضوضاء وطول الأصوات والقوة النسبية ومطابقات المرشح وغيرها الكثير.

في خوارزميات الكشف عن البريد العشوائي ، قد تتضمن الميزات وجود أو عدم وجود رؤوس بريد إلكتروني معينة، وبنية البريد الإلكتروني، واللغة، وتكرار مصطلحات معينة، والصحة النحوية للنص.

في رؤية الكمبيوتر ، هناك عدد كبير من الميزات المحتملة ، مثل الحواف والأشياء.

ناقلات الميزة

في التعرف على الأنماط والتعلم الآلي ، ناقل الميزة هو ناقل ذو أبعاد n للميزات العددية التي تمثل كائنًا ما. تتطلب العديد من الخوارزميات في التعلم الآلي تمثيلاً رقميًا للأشياء، حيث أن هذه التمثيلات تسهل المعالجة والتحليل الإحصائي. عند تمثيل الصور، قد تتوافق قيم الميزة مع بكسلات الصورة، بينما عند تمثيل النصوص، قد تكون الميزات هي تكرارات حدوث المصطلحات النصية. ناقلات الميزات تعادل ناقلات المتغيرات التوضيحية المستخدمة في الإجراءات الإحصائية مثل الانحدار الخطي . غالبًا ما يتم دمج متجهات المعالم مع الأوزان باستخدام منتج نقطي من أجل إنشاء دالة تنبؤ خطية تُستخدم لتحديد النتيجة للتنبؤ.

غالبًا ما يُطلق على مساحة المتجهات المرتبطة بهذه المتجهات اسم مساحة الميزة . من أجل تقليل أبعاد مساحة الميزة، يمكن استخدام عدد من تقنيات تقليل الأبعاد .

يمكن الحصول على الميزات ذات المستوى الأعلى من الميزات المتوفرة بالفعل وإضافتها إلى ناقل الميزات؛ على سبيل المثال، تعتبر ميزة "العمر" مفيدة لدراسة الأمراض ويتم تعريفها على أنها العمر = "سنة الوفاة" ناقص "سنة الميلاد" . يشار إلى هذه العملية باسم بناء الميزة . [3] [4] بناء الميزة هو تطبيق مجموعة من العوامل البناءة على مجموعة من الميزات الموجودة مما يؤدي إلى إنشاء ميزات جديدة. تتضمن أمثلة هذه العوامل البناءة التحقق من شروط المساواة {=، ≠}، والعوامل الحسابية {+،−،×، /}، وعوامل المصفوفة {max(S)، min(S)، Average(S)} مثل بالإضافة إلى عوامل تشغيل أخرى أكثر تطورًا، على سبيل المثال العد (S,C) [5] الذي يحسب عدد الميزات في ناقل الميزة S الذي يستوفي بعض الشروط C أو، على سبيل المثال، المسافات إلى فئات التعرف الأخرى المعممة بواسطة بعض الأجهزة المقبولة. لطالما اعتبر بناء الميزات أداة قوية لزيادة دقة وفهم البنية، خاصة في المسائل ذات الأبعاد العالية. [6] تشمل التطبيقات دراسات حول التعرف على الأمراض والعواطف من خلال الكلام. [7]

الاختيار والاستخراج

يمكن أن تكون المجموعة الأولية من الميزات الأولية زائدة عن الحاجة وكبيرة بما يكفي لجعل التقدير والتحسين صعبًا أو غير فعال. ولذلك، فإن الخطوة الأولية في العديد من تطبيقات التعلم الآلي والتعرف على الأنماط تتكون من اختيار مجموعة فرعية من الميزات، أو إنشاء مجموعة جديدة ومخفضة من الميزات لتسهيل التعلم، وتحسين التعميم وقابلية التفسير. [8]

يعد استخراج الميزات أو اختيارها مزيجًا من الفن والعلم؛ يُعرف تطوير الأنظمة للقيام بذلك باسم هندسة الميزات . فهو يتطلب تجربة إمكانيات متعددة والجمع بين التقنيات الآلية مع حدس ومعرفة خبير المجال . أتمتة هذه العملية هي تعلم الميزات ، حيث لا يستخدم الجهاز الميزات للتعلم فحسب، بل يتعلم الميزات نفسها.

أنظر أيضا

مراجع

  1. ^ الأسقف كريستوفر (2006). التعرف على الأنماط وتعلم الآلة . برلين: سبرينغر. رقم ISBN 0-387-31073-8.
  2. ^ أندرو إنجل (2022). “المتغيرات الفئوية لخوارزميات التعلم الآلي”. نحو علم البيانات.
  3. ^ Liu، H.، Motoda H. (1998) اختيار الميزات لاكتشاف المعرفة واستخراج البيانات. ، كلوير الأكاديمية الناشرين. نورويل، MA، الولايات المتحدة الأمريكية. 1998.
  4. ^ Piramuthu، S.، Sikora RT بناء ميزة تكرارية لتحسين خوارزميات التعلم الاستقرائي. في مجلة النظم الخبيرة مع التطبيقات. المجلد. 36 , آي إس. 2 (مارس 2009)، الصفحات من 3401 إلى 3406، 2009
  5. ^ Bloedorn، E.، Michalski، R. الحث البناء القائم على البيانات: المنهجية وتطبيقاتها. IEEE الأنظمة الذكية، عدد خاص حول تحويل الميزات واختيار المجموعة الفرعية، الصفحات 30-37، مارس/أبريل، 1998
  6. ^ Breiman، L. Friedman، T.، Olshen، R.، Stone، C. (1984) أشجار التصنيف والانحدار ، Wadsworth
  7. ^ Sidorova، J.، Badia T. التعلم النحوي لـ ESEDA.1، أداة لتعزيز الكشف عن عواطف الكلام وتحليلها. مؤتمر تكنولوجيا الإنترنت والمعاملات المضمونة 2009 (ICITST-2009)، لندن، 9-12 نوفمبر. IEEE
  8. ^ هاستي ، تريفور. تيبشيراني، روبرت؛ فريدمان، جيروم هـ. (2009). عناصر التعلم الإحصائي: استخراج البيانات والاستدلال والتنبؤ. سبرينغر. رقم ISBN 978-0-387-84884-6.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Feature_(machine_learning)&oldid=1201634851#Feature_vectors"