معالجة المصطلح المركب

معالجة المصطلحات المركبة، في استرجاع المعلومات ، هي مطابقة نتائج البحث على أساس المصطلحات المركبة . يتم إنشاء المصطلحات المركبة من خلال الجمع بين مصطلحين بسيطين أو أكثر؛ على سبيل المثال، "ثلاثي" هو مصطلح من كلمة واحدة، ولكن "تحويل مسار القلب الثلاثي" هو مصطلح مركب.

تعد معالجة المصطلحات المركبة بمثابة نهج جديد لحل مشكلة قديمة: كيف يمكن للمرء تحسين مدى ملاءمة نتائج البحث مع الحفاظ على سهولة الاستخدام؟ باستخدام هذه التقنية، سيؤدي البحث عن معدلات البقاء على قيد الحياة بعد إجراء مجازة القلب الثلاثية لدى كبار السن إلى العثور على وثائق حول هذا الموضوع حتى لو لم تكن هذه العبارة الدقيقة موجودة في أي مستند. ويمكن إجراء ذلك عن طريق البحث عن المفاهيم ، والذي يستخدم في حد ذاته معالجة المصطلحات المركبة. سيؤدي هذا إلى استخراج المفاهيم الأساسية تلقائيًا (في هذه الحالة "معدلات البقاء"، و"تحويل مسار القلب الثلاثي"، و"كبار السن") واستخدام هذه المفاهيم لاختيار المستندات الأكثر صلة.

تقنيات

في أغسطس 2003، طرحت شركة Concept Searching Limited فكرة استخدام المعالجة الإحصائية للمصطلحات المركبة. [1]

CLAMOR هو مشروع تعاوني أوروبي يهدف إلى إيجاد طريقة أفضل للتصنيف عند جمع ونشر المعلومات والإحصاءات الصناعية. يبدو أن CLAMOR يستخدم منهجًا لغويًا، بدلًا من منهج يعتمد على النمذجة الإحصائية . [2]

تاريخ

تعود تقنيات الترجيح الاحتمالي لمصطلحات الكلمة المفردة إلى عام 1976 على الأقل في المنشور التاريخي لستيفن إي روبرتسون وكارين سبارك جونز . [3] ذكر روبرتسون أن افتراض استقلال الكلمة ليس له ما يبرره وهو موجود كمسألة ملائمة رياضية. إن اعتراضه على مصطلح الاستقلال ليس فكرة جديدة، حيث يعود تاريخه إلى عام 1964 على الأقل عندما صرح سمو ويليامز أن "افتراض استقلال الكلمات في الوثيقة عادة ما يتم على سبيل الملاءمة الرياضية". [4]

في عام 2004، قدمت آنا لين باترسون براءات اختراع بشأن "البحث القائم على العبارات في نظام استرجاع المعلومات" [5] والذي اكتسبت Google حقوقه لاحقًا. [6]

القدرة على التكيف

تعد المعالجة الإحصائية للمصطلحات المركبة أكثر قابلية للتكيف من العملية التي وصفها باترسون. تستهدف عمليتها البحث في شبكة الويب العالمية حيث يمكن استخدام المعرفة الإحصائية الواسعة لعمليات البحث الشائعة لتحديد العبارات المرشحة. تعد معالجة المصطلحات المركبة الإحصائية أكثر ملاءمة لتطبيقات البحث الخاصة بالمؤسسات حيث لا تتوفر مثل هذه المعرفة المسبقة .

تعد المعالجة الإحصائية للمصطلحات المركبة أيضًا أكثر قابلية للتكيف من النهج اللغوي الذي يتبعه مشروع CLAMOR، والذي يجب أن يأخذ في الاعتبار الخصائص النحوية للمصطلحات (أي جزء من الكلام، والجنس، والعدد، وما إلى ذلك) ومجموعاتها. يعتمد CLAMOR بشكل كبير على اللغة، في حين أن النهج الإحصائي مستقل عن اللغة.

التطبيقات

تسمح معالجة المصطلحات المركبة لتطبيقات استرجاع المعلومات، مثل محركات البحث ، بإجراء المطابقة على أساس مفاهيم متعددة الكلمات، بدلاً من الكلمات المفردة المنعزلة التي يمكن أن تكون غامضة للغاية.

كانت محركات البحث المبكرة تبحث عن المستندات التي تحتوي على الكلمات التي أدخلها المستخدم في مربع البحث. تُعرف هذه بمحركات البحث عن الكلمات الرئيسية . تضيف محركات البحث المنطقية درجة من التطور من خلال السماح للمستخدم بتحديد متطلبات إضافية. على سبيل المثال، يستخدم "Tiger NEAR Woods AND (golf OR Golfing) NOT Volkswagen" عوامل التشغيل "NEAR" و"AND" و"OR" و"NOT" لتحديد أن هذه الكلمات يجب أن تتبع متطلبات معينة. يعتبر البحث عن عبارة أسهل في الاستخدام، ولكنه يتطلب ظهور العبارة المحددة بالضبط في النتائج.

أنظر أيضا

مراجع

  1. ^ “التفكير الجانبي في استرجاع المعلومات” (PDF) . إدارة وتكنولوجيا المعلومات . 36 الجزء 4. مؤرشفة من الأصلي (PDF) بتاريخ 2017-11-15 . تم الاسترجاع 2008-06-20 .يمكن العثور على إدخال كتالوج المكتبة البريطانية المباشر هنا: [1] أرشفة 2012-02-10 في آلة Wayback.
  2. ^ [2] مشروع الإحصاءات الوطنية CLAMOR
  3. ^ روبرتسون, جنوب شرق ; سبارك جونز، ك. (1976). "ترجيح أهمية مصطلحات البحث". مجلة الجمعية الأمريكية لعلوم المعلومات . 27 (3): 129. دوى :10.1002/asi.4630270302.
  4. ^ ويليامز، ج.ه. (1965). “نتائج تصنيف الوثائق ذات الوظائف التمييزية المتعددة”. طرق الجمعية الإحصائية للتوثيق الآلي، المكتب الوطني للمعايير . واشنطن: 217-224. مؤرشف من الأصل بتاريخ 17-07-2011 . تم الاسترجاع 2015/05/21 .
  5. ^ الولايات المتحدة 20060031195 
  6. ^ جوجل تستحوذ على طلبات براءة اختراع Cuil
تم الاسترجاع من "https://en.wikipedia.org/w/index.php?title=Compound-term_processing&oldid=997530676"