بيانات التعدين

من ويكيبيديا، الموسوعة الحرة
اذهب إلى الملاحة اذهب الى البحث

التنقيب عن البيانات هو عملية استخراج واكتشاف الأنماط في مجموعات البيانات الكبيرة التي تتضمن طرقًا عند تقاطع التعلم الآلي والإحصاءات وأنظمة قواعد البيانات . [1] يعد استخراج البيانات مجالًا فرعيًا متعدد التخصصات لعلوم الكمبيوتر والإحصاء بهدف عام لاستخراج المعلومات (باستخدام الأساليب الذكية) من مجموعة البيانات وتحويل المعلومات إلى بنية مفهومة لاستخدامها لاحقًا. [1] [2] [3] [4] التنقيب في البيانات هو خطوة تحليل عملية "اكتشاف المعرفة في قواعد البيانات" ، أو KDD. [5]بصرف النظر عن خطوة التحليل الأولية ، فإنها تتضمن أيضًا جوانب إدارة قاعدة البيانات والبيانات ، والمعالجة المسبقة للبيانات ، واعتبارات النموذج والاستدلال ، ومقاييس الاهتمام ، واعتبارات التعقيد ، والمعالجة اللاحقة للهياكل المكتشفة ، والتصور ، والتحديث عبر الإنترنت . [1]

مصطلح "التنقيب في البيانات" تسمية خاطئة ، لأن الهدف هو استخراج الأنماط والمعرفة من كميات كبيرة من البيانات ، وليس استخراج ( تعدين ) البيانات نفسها . [6] وهي أيضًا كلمة طنانة [7] ويتم تطبيقها بشكل متكرر على أي شكل من أشكال البيانات أو معالجة المعلومات على نطاق واسع ( الجمع والاستخراج والتخزين والتحليل والإحصاءات ) بالإضافة إلى أي تطبيق لنظام دعم قرارات الكمبيوتر ، بما في ذلك الذكاء الاصطناعي (مثل التعلم الآلي) وذكاء الأعمال . الكتابالتنقيب عن البيانات: أدوات وتقنيات التعلم الآلي العملية باستخدام Java [8] (والتي تغطي في الغالب مواد التعلم الآلي) كان من المقرر تسميتها في الأصل مجرد التعلم الآلي العملي ، وتمت إضافة مصطلح التنقيب عن البيانات لأسباب تسويقية فقط. [9] غالبًا ما تكون المصطلحات الأكثر عمومية ( النطاق الواسع ) لتحليل وتحليلات البيانات - أو عند الإشارة إلى الأساليب الفعلية والذكاء الاصطناعي والتعلم الآلي - أكثر ملاءمة.

مهمة التنقيب عن البيانات الفعلية هي التحليل شبه التلقائي أو التلقائي لكميات كبيرة من البيانات لاستخراج أنماط مثيرة للاهتمام لم تكن معروفة من قبل مثل مجموعات سجلات البيانات ( تحليل الكتلة ) ، والسجلات غير العادية ( اكتشاف الشذوذ ) ، والتبعيات ( التنقيب في قواعد الارتباط ، التعدين النمط المتسلسل ). يتضمن هذا عادةً استخدام تقنيات قواعد البيانات مثل المؤشرات المكانية . يمكن بعد ذلك النظر إلى هذه الأنماط كنوع من ملخص لبيانات الإدخال ، ويمكن استخدامها في مزيد من التحليل أو ، على سبيل المثال ، في التعلم الآلي والتحليلات التنبؤية. على سبيل المثال ، قد تحدد خطوة استخراج البيانات مجموعات متعددة في البيانات ، والتي يمكن استخدامها بعد ذلك للحصول على نتائج تنبؤ أكثر دقة من خلال نظام دعم القرار . لا يعد جمع البيانات أو إعداد البيانات أو تفسير النتائج وإعداد التقارير جزءًا من خطوة استخراج البيانات ، ولكنها تنتمي إلى عملية KDD الشاملة كخطوات إضافية.

الفرق بين تحليل البيانات واستخراج البيانات هو أن تحليل البيانات يستخدم لاختبار النماذج والفرضيات على مجموعة البيانات ، على سبيل المثال ، تحليل فعالية حملة تسويقية ، بغض النظر عن كمية البيانات ؛ في المقابل ، يستخدم التنقيب عن البيانات التعلم الآلي والنماذج الإحصائية للكشف عن الأنماط السرية أو الخفية في حجم كبير من البيانات. [10]

تشير المصطلحات ذات الصلة ، تجريف البيانات ، وصيد البيانات ، وتطفل البيانات إلى استخدام طرق استخراج البيانات لأخذ عينات من مجموعة بيانات أكبر حجمًا (أو قد تكون) صغيرة جدًا بحيث لا يمكن إجراء استنتاجات إحصائية موثوقة حول صحة أي اكتشف الأنماط. ومع ذلك ، يمكن استخدام هذه الأساليب في إنشاء فرضيات جديدة لاختبارها مقابل مجموعات البيانات الأكبر.

علم أصل الكلمة

في الستينيات ، استخدم الإحصائيون والاقتصاديون مصطلحات مثل صيد البيانات أو تجريف البيانات للإشارة إلى ما اعتبروه ممارسة سيئة لتحليل البيانات دون فرضية مسبقة. تم استخدام مصطلح "التنقيب عن البيانات" بطريقة نقدية مماثلة من قبل الاقتصادي مايكل لوفيل في مقال نشر في مجلة ريفيو الدراسات الاقتصادية في عام 1983. [11] [12] يشير لوفيل إلى أن الممارسة "تنكر تحت مجموعة متنوعة من الأسماء المستعارة ، من "التجريب" (الإيجابي) إلى "الصيد" أو "التطفل" (سلبي).

ظهر مصطلح التنقيب عن البيانات في حوالي عام 1990 في مجتمع قاعدة البيانات ، بشكل عام مع دلالات إيجابية. لفترة قصيرة في الثمانينيات من القرن الماضي ، تم استخدام عبارة "database Mining" ™ ، ولكن منذ أن تم تسجيلها من قبل HNC ، وهي شركة مقرها سان دييغو ، للترويج لمحطة عمل Database Mining Workstation الخاصة بهم ؛ [13] وبالتالي تحول الباحثون إلى التنقيب عن البيانات . تشمل المصطلحات الأخرى المستخدمة علم آثار البيانات ، وجمع المعلومات ، واكتشاف المعلومات ، واستخراج المعرفة ، وما إلى ذلك. صاغ غريغوري بياتسكي شابيرو مصطلح "اكتشاف المعرفة في قواعد البيانات" لورشة العمل الأولى حول نفس الموضوع (KDD-1989)وأصبح هذا المصطلح أكثر شيوعًا في مجتمع الذكاء الاصطناعي والتعلم الآلي . ومع ذلك ، أصبح مصطلح التنقيب عن البيانات أكثر شيوعًا في مجتمعات الأعمال والصحافة. [14] حاليًا ، يتم استخدام مصطلحات التنقيب عن البيانات واكتشاف المعرفة بالتبادل.

في المجتمع الأكاديمي ، بدأت المنتديات الرئيسية للبحث في عام 1995 عندما بدأ المؤتمر الدولي الأول لاستخراج البيانات واكتشاف المعرفة ( KDD-95 ) في مونتريال تحت رعاية AAAI . وقد شارك في رئاستها أسامة فياض وراماسامي أثورسامي. بعد عام ، في عام 1996 ، أطلق أسامة فياض مجلة كلوير بعنوان Data Mining and Knowledge Discovery بصفتها رئيس التحرير المؤسس لها. في وقت لاحق بدأ SIGKDD النشرة الإخبارية SIGKDD Explorations. [15] أصبح مؤتمر كي دي دي الدولي المؤتمر الأعلى جودة في التنقيب عن البيانات مع معدل قبول لتقديم الأوراق البحثية أقل من 18٪. المجلةالتنقيب عن البيانات واكتشاف المعرفة هي المجلة البحثية الأساسية في هذا المجال.

الخلفية

حدث الاستخراج اليدوي للأنماط من البيانات لعدة قرون. تتضمن الأساليب المبكرة لتحديد الأنماط في البيانات نظرية بايز (1700) وتحليل الانحدار (القرن التاسع عشر). [16] أدى انتشار تكنولوجيا الكمبيوتر وانتشارها وزيادة قوتها إلى زيادة كبيرة في جمع البيانات وتخزينها وقدرتها على التلاعب. نظرًا لتزايد حجم مجموعات البيانات وتعقيدها ، تم زيادة تحليل البيانات "العملي المباشر" بشكل متزايد من خلال المعالجة الآلية غير المباشرة للبيانات ، بمساعدة الاكتشافات الأخرى في علوم الكمبيوتر ، وخاصة في مجال التعلم الآلي ، مثل الشبكات العصبية ، تحليل الكتلة ، الخوارزميات الجينية(الخمسينيات) ، أشجار القرار وقواعد القرار ( الستينيات) ، وآلات الدعم (التسعينيات). التنقيب عن البيانات هو عملية تطبيق هذه الأساليب بقصد الكشف عن الأنماط المخفية. [17] في مجموعات البيانات الكبيرة. إنه يسد الفجوة من الإحصائيات التطبيقية والذكاء الاصطناعي (التي توفر عادةً الخلفية الرياضية) إلى إدارة قواعد البيانات من خلال استغلال طريقة تخزين البيانات وفهرستها في قواعد البيانات لتنفيذ خوارزميات التعلم والاكتشاف الفعلية بشكل أكثر كفاءة ، مما يسمح بتطبيق مثل هذه الأساليب على مجموعات بيانات أكبر من أي وقت مضى.

عملية

يتم تعريف عملية اكتشاف المعرفة في قواعد البيانات (KDD) بشكل عام بالمراحل:

  1. اختيار
  2. ما قبل المعالجة
  3. تحويل
  4. بيانات التعدين
  5. التفسير / التقييم. [5]

ومع ذلك ، فهي موجودة في العديد من الاختلافات حول هذا الموضوع ، مثل العملية القياسية عبر الصناعة لاستخراج البيانات (CRISP-DM) التي تحدد ست مراحل:

  1. فهم الأعمال
  2. فهم البيانات
  3. تحضير البيانات
  4. النمذجة
  5. تقييم
  6. تعيين

أو عملية مبسطة مثل (1) المعالجة المسبقة و (2) التنقيب في البيانات و (3) التحقق من النتائج.

تشير استطلاعات الرأي التي أجريت في الأعوام 2002 و 2004 و 2007 و 2014 إلى أن منهجية CRISP-DM هي المنهجية الرائدة التي يستخدمها عمال التنقيب عن البيانات. [18] كان معيار التنقيب عن البيانات الآخر الوحيد الذي تم تسميته في هذه الاستطلاعات هو SEMMA . ومع ذلك ، أبلغ 3-4 مرات عن استخدام CRISP-DM. نشرت عدة فرق من الباحثين مراجعات لنماذج عملية التنقيب عن البيانات ، [19] وأجرى أزيفيدو وسانتوس مقارنة بين CRISP-DM و SEMMA في عام 2008. [20]

ما قبل المعالجة

قبل استخدام خوارزميات التنقيب عن البيانات ، يجب تجميع مجموعة بيانات مستهدفة. نظرًا لأن التنقيب في البيانات لا يمكن إلا الكشف عن الأنماط الموجودة فعليًا في البيانات ، يجب أن تكون مجموعة البيانات المستهدفة كبيرة بما يكفي لاحتواء هذه الأنماط مع الحفاظ على الإيجاز الكافي ليتم تعدينها في غضون فترة زمنية مقبولة. المصدر الشائع للبيانات هو سوق البيانات أو مستودع البيانات . المعالجة المسبقة ضرورية لتحليل مجموعات البيانات متعددة المتغيرات قبل استخراج البيانات. ثم يتم تنظيف المجموعة المستهدفة. يعمل تنظيف البيانات على إزالة الملاحظات التي تحتوي على ضوضاء وتلك التي تحتوي على بيانات مفقودة .

التنقيب في البيانات

يتضمن التنقيب عن البيانات ستة فئات مشتركة من المهام: [5]

  • اكتشاف الانحراف (الكشف عن الانحراف / التغيير / الانحراف) - تحديد سجلات البيانات غير العادية ، التي قد تكون مثيرة للاهتمام أو أخطاء البيانات التي تتطلب مزيدًا من التحقيق.
  • تعلم قواعد الارتباط (نمذجة التبعية) - يبحث عن العلاقات بين المتغيرات. على سبيل المثال ، قد يجمع السوبر ماركت بيانات عن عادات الشراء لدى العملاء. باستخدام تعلم قواعد الارتباط ، يمكن للسوبر ماركت تحديد المنتجات التي يتم شراؤها بشكل متكرر معًا واستخدام هذه المعلومات لأغراض التسويق. يشار إلى هذا أحيانًا باسم تحليل سلة السوق.
  • التجميع - هو مهمة اكتشاف المجموعات والهياكل في البيانات التي تكون بطريقة أو بأخرى "متشابهة" ، دون استخدام الهياكل المعروفة في البيانات.
  • التصنيف - هو مهمة تعميم البنية المعروفة لتطبيقها على البيانات الجديدة. على سبيل المثال ، قد يحاول برنامج البريد الإلكتروني تصنيف بريد إلكتروني على أنه "شرعي" أو "بريد عشوائي".
  • الانحدار - يحاول العثور على دالة تقوم بنمذجة البيانات بأقل خطأ ، لتقدير العلاقات بين البيانات أو مجموعات البيانات.
  • التلخيص - توفير تمثيل أكثر إحكاما لمجموعة البيانات ، بما في ذلك التمثيل المرئي وإنشاء التقارير.

التحقق من النتائج

مثال على البيانات التي تم إنتاجها من خلال البيانات التي يتم تجريفها من خلال روبوت يديره الإحصائي تايلر فيجن ، والذي يظهر على ما يبدو ارتباطًا وثيقًا بين أفضل كلمة تفوز بمسابقة نحل التهجئة وعدد الأشخاص في الولايات المتحدة الذين قتلوا بواسطة العناكب السامة. من الواضح أن التشابه في الاتجاهات هو مصادفة.

يمكن إساءة استخدام التنقيب في البيانات عن غير قصد ، ومن ثم يمكن أن ينتج عنه نتائج تبدو مهمة ؛ ولكنها لا تتنبأ فعليًا بالسلوك المستقبلي ولا يمكن إعادة إنتاجها على عينة جديدة من البيانات ولا تستخدم إلا قليلاً. غالبًا ما ينتج هذا عن التحقيق في عدد كبير جدًا من الفرضيات وعدم إجراء اختبار الفرضيات الإحصائية المناسبة . تُعرف نسخة بسيطة من هذه المشكلة في التعلم الآلي باسم overfitting ، ولكن يمكن أن تنشأ نفس المشكلة في مراحل مختلفة من العملية ، وبالتالي فإن تقسيم التدريب / الاختبار - عند الاقتضاء على الإطلاق - قد لا يكون كافياً لمنع حدوث ذلك. [21]

تتمثل الخطوة الأخيرة لاكتشاف المعرفة من البيانات في التحقق من أن الأنماط التي تنتجها خوارزميات التنقيب عن البيانات تحدث في مجموعة البيانات الأوسع. ليست كل الأنماط التي تم العثور عليها بواسطة خوارزميات التنقيب عن البيانات صالحة بالضرورة. من الشائع لخوارزميات التنقيب عن البيانات أن تجد أنماطًا في مجموعة التدريب غير موجودة في مجموعة البيانات العامة. وهذا ما يسمى overfitting . للتغلب على هذا ، يستخدم التقييم مجموعة اختبار من البيانات التي لم يتم تدريب خوارزمية استخراج البيانات عليها. يتم تطبيق الأنماط التي تم تعلمها على مجموعة الاختبار هذه ، ويتم مقارنة المخرجات الناتجة بالمخرجات المطلوبة. على سبيل المثال ، سيتم تدريب خوارزمية التنقيب في البيانات التي تحاول التمييز بين "البريد العشوائي" ورسائل البريد الإلكتروني "الشرعية" على مجموعة تدريبعينة من رسائل البريد الإلكتروني. بمجرد التدريب ، سيتم تطبيق الأنماط المكتسبة على مجموعة اختبار رسائل البريد الإلكتروني التي لم يتم التدريب عليها. يمكن بعد ذلك قياس دقة الأنماط من خلال عدد رسائل البريد الإلكتروني التي تصنفها بشكل صحيح. يمكن استخدام عدة طرق إحصائية لتقييم الخوارزمية ، مثل منحنيات ROC .

إذا كانت الأنماط التي تم تعلمها لا تفي بالمعايير المرغوبة ، فمن الضروري إعادة تقييم وتغيير خطوات المعالجة المسبقة واستخراج البيانات. إذا كانت الأنماط التي تم تعلمها تفي بالمعايير المطلوبة ، فإن الخطوة الأخيرة هي تفسير الأنماط المكتسبة وتحويلها إلى معرفة.

بحث

الهيئة المهنية الأولى في هذا المجال هي مجموعة الاهتمامات الخاصة (SIG) التابعة لجمعية آلات الحوسبة (ACM) والمعنية باكتشاف المعرفة واستخراج البيانات ( SIGKDD ). [22] [23] منذ عام 1989 ، استضافت ACM SIG مؤتمرًا دوليًا سنويًا ونشرت وقائعه ، [24] ومنذ عام 1999 أصدرت مجلة أكاديمية نصف سنوية بعنوان "SIGKDD Explorations". [25]

تشمل مؤتمرات علوم الكمبيوتر حول استخراج البيانات ما يلي:

مواضيع التنقيب عن البيانات موجودة أيضًا في العديد من مؤتمرات إدارة البيانات / قواعد البيانات مثل مؤتمر ICDE ومؤتمر SIGMOD والمؤتمر الدولي حول قواعد البيانات الكبيرة جدًا

المعايير

كانت هناك بعض الجهود لتحديد معايير عملية التنقيب عن البيانات ، على سبيل المثال ، عملية المعيار الأوروبي عبر الصناعة لعام 1999 لاستخراج البيانات (CRISP-DM 1.0) ومعيار Java Data Mining (JDM 1.0). كان التطوير على العمليات اللاحقة لهذه العمليات (CRISP-DM 2.0 و JDM 2.0) نشطًا في عام 2006 ولكنه توقف منذ ذلك الحين. تم سحب JDM 2.0 دون الوصول إلى المسودة النهائية.

لتبادل النماذج المستخرجة - لا سيما للاستخدام في التحليلات التنبؤية - المعيار الرئيسي هو لغة ترميز النموذج التنبئي (PMML) ، وهي لغة قائمة على XML طورتها مجموعة تعدين البيانات (DMG) ودعمتها كتنسيق تبادل من قبل الكثيرين. تطبيقات التنقيب عن البيانات. كما يوحي الاسم ، فإنه يغطي فقط نماذج التنبؤ ، وهي مهمة معينة لاستخراج البيانات ذات أهمية عالية لتطبيقات الأعمال. ومع ذلك ، تم اقتراح امتدادات لتغطية (على سبيل المثال) تجمعات الفضاء الجزئي بشكل مستقل عن DMG. [26]

استخدامات بارزة

يتم استخدام التنقيب عن البيانات أينما توجد بيانات رقمية متاحة اليوم. يمكن العثور على أمثلة بارزة للتنقيب عن البيانات في مجالات الأعمال والطب والعلوم والمراقبة.

مخاوف الخصوصية والأخلاق

في حين أن مصطلح "التنقيب عن البيانات" في حد ذاته قد لا يكون له آثار أخلاقية ، فإنه غالبًا ما يرتبط بالتنقيب عن المعلومات فيما يتعلق بسلوك الناس (الأخلاقي وغير ذلك). [27]

يمكن للطرق التي يمكن من خلالها استخدام التنقيب عن البيانات أن تثير في بعض الحالات والسياقات أسئلة تتعلق بالخصوصية والشرعية والأخلاق. [28] على وجه الخصوص ، فإن استخراج البيانات الحكومية أو مجموعات البيانات التجارية لأغراض الأمن القومي أو إنفاذ القانون ، كما هو الحال في برنامج التوعية الشاملة للمعلومات أو في ADVISE ، قد أثار مخاوف تتعلق بالخصوصية. [29] [30]

يتطلب التنقيب عن البيانات إعداد البيانات التي تكشف عن المعلومات أو الأنماط التي تهدد السرية والتزامات الخصوصية. الطريقة الشائعة لحدوث ذلك هي من خلال تجميع البيانات . يتضمن تجميع البيانات الجمع بين البيانات معًا (ربما من مصادر مختلفة) بطريقة تسهل التحليل (ولكن قد يجعل ذلك أيضًا تحديد البيانات الخاصة أو الفردية أمرًا قابلاً للاستنتاج أو واضحًا بطريقة أخرى). [31] هذا ليس التنقيب عن البيانات في حد ذاته، ولكن نتيجة لإعداد البيانات قبل - ولأغراض - التحليل. يظهر التهديد لخصوصية الفرد عندما تتسبب البيانات ، بمجرد تجميعها ، في أن يتمكن عامل منجم البيانات ، أو أي شخص لديه حق الوصول إلى مجموعة البيانات المجمعة حديثًا ، من تحديد أفراد معينين ، خاصةً عندما تكون البيانات مجهولة في الأصل. [32]

يستحب [ على من؟ ] أن تكون على دراية بما يلي قبل جمع البيانات: [31]

  • الغرض من جمع البيانات وأي مشاريع (معروفة) للتنقيب عن البيانات ؛
  • كيف سيتم استخدام البيانات ؛
  • من سيكون قادرًا على استخراج البيانات واستخدام البيانات ومشتقاتها ؛
  • حالة الأمن المحيطة بالوصول إلى البيانات ؛
  • كيف يمكن تحديث البيانات التي تم جمعها.

يمكن أيضًا تعديل البيانات بحيث تصبح مجهولة الهوية ، بحيث لا يمكن التعرف على الأفراد بسهولة. [31] ومع ذلك ، حتى مجموعات البيانات "مجهولة المصدر" يمكن أن تحتوي على معلومات كافية للسماح بالتعرف على الأفراد ، كما حدث عندما تمكن الصحفيون من العثور على العديد من الأفراد بناءً على مجموعة من سجلات البحث التي تم إصدارها عن غير قصد بواسطة AOL. [33]

إن الكشف غير المقصود عن معلومات التعريف الشخصية المؤدية إلى المزود ينتهك ممارسات المعلومات العادلة. يمكن أن يسبب هذا الطيش ضررًا ماليًا أو عاطفيًا أو جسديًا للفرد المشار إليه. في إحدى حالات انتهاك الخصوصية ، رفع رعاة Walgreens دعوى قضائية ضد الشركة في عام 2011 لبيع معلومات الوصفات الطبية لشركات التنقيب عن البيانات التي قامت بدورها بتوفير البيانات لشركات الأدوية. [34]

الوضع في أوروبا

أوروبا لديها قوانين خصوصية قوية إلى حد ما ، والجهود جارية لزيادة تعزيز حقوق المستهلكين. ومع ذلك ، فإن مبادئ الملاذ الآمن بين الولايات المتحدة والاتحاد الأوروبي ، التي تم تطويرها بين عامي 1998 و 2000 ، تعرض المستخدمين الأوروبيين بشكل فعال لاستغلال الخصوصية من قبل الشركات الأمريكية. نتيجة للكشف عن المراقبة العالمية لإدوارد سنودن ، كان هناك نقاش متزايد لإلغاء هذه الاتفاقية ، حيث سيتم على وجه الخصوص كشف البيانات بالكامل لوكالة الأمن القومي ، وفشلت محاولات التوصل إلى اتفاق مع الولايات المتحدة. [35]

في المملكة المتحدة على وجه الخصوص ، كانت هناك حالات لشركات تستخدم التنقيب عن البيانات كوسيلة لاستهداف مجموعات معينة من العملاء لإجبارهم على دفع أسعار مرتفعة بشكل غير عادل. تميل هذه المجموعات إلى أن يكونوا أشخاصًا ذوي وضع اجتماعي واقتصادي متدني وليسوا على دراية بالطرق التي يمكن بها استغلالهم في الأسواق الرقمية. [36]

الوضع في الولايات المتحدة

في الولايات المتحدة ، تمت معالجة مخاوف الخصوصية من قبل الكونجرس الأمريكي من خلال تمرير الضوابط التنظيمية مثل قانون التأمين الصحي وقابلية النقل والمساءلة (HIPAA). يتطلب قانون HIPAA من الأفراد إعطاء "موافقتهم المستنيرة" فيما يتعلق بالمعلومات التي يقدمونها والاستخدامات الحالية والمستقبلية المقصودة. وفقًا لمقال نُشر في Biotech Business Week ، "[i] n Practice ، HIPAA قد لا تقدم أي حماية أكبر من اللوائح القائمة منذ فترة طويلة في مجال البحث ،" كما تقول AAHC. والأهم من ذلك ، أن هدف القاعدة المتمثل في الحماية من خلال الموافقة المستنيرة هو الاقتراب من مستوى من عدم الفهم للأفراد العاديين ". [37]وهذا يؤكد ضرورة إخفاء هوية البيانات في ممارسات تجميع البيانات والتعدين.

تنطبق تشريعات خصوصية المعلومات الأمريكية مثل HIPAA وقانون الخصوصية والحقوق التعليمية للأسرة (FERPA) فقط على المجالات المحددة التي يتناولها كل قانون من هذا القبيل. لا يخضع استخدام التنقيب عن البيانات من قبل غالبية الشركات في الولايات المتحدة لأي تشريع.

قانون حقوق النشر

الوضع في أوروبا

بموجب قوانين حقوق النشر وقواعد البيانات الأوروبية ، فإن التنقيب عن الأعمال المحمية بحقوق الطبع والنشر (مثل التنقيب على الويب ) دون إذن من مالك حقوق الطبع والنشر غير قانوني. عندما تكون قاعدة البيانات عبارة عن بيانات خالصة في أوروبا ، فقد يرجع ذلك إلى عدم وجود حقوق طبع ونشر - ولكن حقوق قاعدة البيانات قد تكون موجودة ، لذا يصبح استخراج البيانات خاضعًا لحقوق أصحاب الملكية الفكرية المحمية بواسطة توجيه قاعدة البيانات . بناءً على توصية مراجعة Hargreaves ، أدى ذلك إلى قيام حكومة المملكة المتحدة بتعديل قانون حقوق الطبع والنشر الخاص بها في عام 2014 للسماح باستخراج المحتوى كقيود واستثناء . [38]كانت المملكة المتحدة ثاني دولة في العالم تفعل ذلك بعد اليابان ، التي قدمت استثناءً في عام 2009 للتنقيب عن البيانات. ومع ذلك ، نظرًا لتقييد توجيه مجتمع المعلومات (2001) ، فإن استثناء المملكة المتحدة يسمح فقط باستخراج المحتوى لأغراض غير تجارية. لا يسمح قانون حقوق الطبع والنشر في المملكة المتحدة أيضًا بتجاوز هذا الحكم من خلال الشروط والأحكام التعاقدية. منذ عام 2020 ، تنظم سويسرا أيضًا التنقيب عن البيانات من خلال السماح لها في مجال البحث في ظل ظروف معينة ينص عليها الفن. 24d من قانون حق المؤلف السويسري. دخلت هذه المادة الجديدة حيز التنفيذ في الأول من أبريل 2020. [39]

يسرت المفوضية الأوروبية مناقشة أصحاب المصلحة حول التنقيب عن النصوص والبيانات في عام 2013 ، تحت عنوان التراخيص لأوروبا. [40] التركيز على حل هذه المشكلة القانونية ، مثل الترخيص بدلاً من التقييدات والاستثناءات ، أدى إلى قيام ممثلي الجامعات والباحثين والمكتبات ومجموعات المجتمع المدني وناشري الوصول المفتوح بمغادرة حوار أصحاب المصلحة في مايو 2013. [41] ]

الوضع في الولايات المتحدة

يدعم قانون حقوق النشر في الولايات المتحدة ، ولا سيما أحكامه للاستخدام العادل ، شرعية التنقيب عن المحتوى في أمريكا ، ودول أخرى ذات الاستخدام العادل مثل إسرائيل وتايوان وكوريا الجنوبية. نظرًا لأن التنقيب عن المحتوى يعد تحويليًا ، أي أنه لا يحل محل العمل الأصلي ، فإنه يُنظر إليه على أنه قانوني بموجب الاستخدام العادل. على سبيل المثال ، كجزء من تسوية Google Book ، قرر القاضي الذي ترأس القضية أن مشروع Google لرقمنة الكتب المحمية بحقوق الطبع والنشر كان قانونيًا ، ويرجع ذلك جزئيًا إلى الاستخدامات التحويلية التي عرضها مشروع الرقمنة - أحدها هو التنقيب عن النصوص والبيانات. [42]

البرمجيات

برمجيات وتطبيقات مجانية مفتوحة المصدر لاستخراج البيانات

التطبيقات التالية متاحة بموجب تراخيص مجانية / مفتوحة المصدر. الوصول العام إلى التعليمات البرمجية المصدر للتطبيق متاح أيضًا.

برامج وتطبيقات استخراج البيانات المسجلة الملكية

التطبيقات التالية متاحة بموجب تراخيص الملكية.

انظر أيضا

طرق
مجالات التطبيق
أمثلة التطبيق
مواضيع ذات صلة

لمزيد من المعلومات حول استخراج المعلومات من البيانات (بدلاً من تحليل البيانات) ، راجع:

مصادر أخرى

المراجع

  1. ^ أ ب ج "منهج التنقيب في البيانات" . ACM SIGKDD . 2006-04-30 . تم الاسترجاع 2014/01/27 .
  2. ^ كليفتون ، كريستوفر (2010). "Encyclopædia Britannica: تعريف التنقيب في البيانات" . تم الاسترجاع 2010-12-09 .
  3. ^ هاستي ، تريفور ؛ تبشيراني ، روبرت ؛ فريدمان ، جيروم (2009). "عناصر التعلم الإحصائي: التنقيب في البيانات والاستدلال والتنبؤ" . مؤرشفة من الأصلي في 2009-11-10 . تم الاسترجاع 2012-08-07 .
  4. ^ هان ، جايوي ؛ كامبر ، ميشلين ؛ بي ، جيان (2011). التنقيب في البيانات: المفاهيم والتقنيات (الطبعة الثالثة). مورجان كوفمان. رقم ISBN 978-0-12-381479-1.
  5. ^ أ ب ج فياض ، أسامة ؛ بياتسكي شابيرو ، جريجوري ؛ سميث ، بادريك (1996). "من التنقيب عن البيانات إلى اكتشاف المعرفة في قواعد البيانات" (PDF) . تم الاسترجاع 17 ديسمبر 2008 .
  6. ^ هان ، جياوي ؛ كامبر ، ميشلين (2001). التنقيب عن البيانات: المفاهيم والتقنيات . مورجان كوفمان . ص. 5. ISBN 978-1-55860-489-6. وبالتالي ، كان ينبغي تسمية التنقيب عن البيانات بشكل أكثر ملاءمة "التنقيب عن المعرفة من البيانات" ، وهو للأسف طويل إلى حد ما
  7. ^ OKAIRP 2005 Fall Conference ، جامعة ولاية أريزونا أرشفة 2014/02/01 في آلة Wayback ...
  8. ^ ويتن ، إيان هـ . فرانك ، إيبي ؛ هول ، مارك أ. (2011). التنقيب في البيانات: أدوات وتقنيات تعلم الآلة العملية (3 ed.). إلسفير. رقم ISBN 978-0-12-374856-0.
  9. ^ بوكيرت ، رمكو ر. فرانك ، إيبي ؛ هول ، مارك أ. هولمز ، جيفري. بفرينجر ، برنارد ؛ روتيمان ، بيتر ؛ ويتن ، إيان هـ. (2010). "WEKA Experiences مع مشروع Java مفتوح المصدر". مجلة أبحاث التعلم الآلي . 11 : 2533-2541. تم تغيير العنوان الأصلي ، "التعلم الآلي العملي" ... تمت إضافة مصطلح "التنقيب عن البيانات" لأسباب تسويقية في المقام الأول.
  10. ^ أولسون ، دل (2007). التنقيب عن البيانات في خدمات الأعمال. أعمال الخدمات ، 1 (3) ، 181–193. دوى : 10.1007 / s11628-006-0014-7
  11. ^ لوفيل ، مايكل سي (1983). "بيانات التعدين". مراجعة الاقتصاد والإحصاء . 65 (1): 1-12. دوى : 10.2307 / 1924403 . JSTOR 1924403 . 
  12. ^ Charemza ، Wojciech W. ؛ ديدمان ، ديريك ف. (1992). "بيانات التعدين". اتجاهات جديدة في ممارسة الاقتصاد القياسي . ألدرشوت: إدوارد إلجار. ص 14 - 31. رقم ISBN 1-85278-461-X.
  13. ^ مينا ، خيسوس (2011). الطب الشرعي لتعلم الآلة لإنفاذ القانون والأمن والاستخبارات . بوكا راتون ، فلوريدا: مطبعة CRC (مجموعة تايلور وفرانسيس). رقم ISBN 978-1-4398-6069-4.
  14. ^ بياتسكي شابيرو ، جريجوري ؛ باركر ، غاري (2011). "الدرس: التنقيب في البيانات واكتشاف المعرفة: مقدمة" . مقدمة في التنقيب في البيانات . ناجتس دينار كويتي . تم الاسترجاع 30 أغسطس 2012 .
  15. ^ أسامة فياض (15 يونيو 1999). "الافتتاحية الأولى لرئيس التحرير" . استكشافات SIGKDD . 13 (1): 102. دوى : 10.1145 / 2207243.2207269 . S2CID 13314420 . تم الاسترجاع 27 ديسمبر 2010 . 
  16. ^ كوينين ، فرانس (07 فبراير 2011). "التنقيب في البيانات: الماضي والحاضر والمستقبل" . مراجعة هندسة المعرفة . 26 (1): 25-29. دوى : 10.1017 / S0269888910000378 . ISSN 0269-8889 . S2CID 6487637 .  
  17. ^ كانتاردزيتش ، محمد (2003). التنقيب في البيانات: المفاهيم والنماذج والطرق والخوارزميات . جون وايلي وأولاده. رقم ISBN 978-0-471-22852-3. OCLC  50055336 .
  18. ^ جريجوري بياتسكي-شابيرو (2002) استطلاع منهجية KDnuggets ، Gregory Piatetsky-Shapiro (2004) استطلاع منهجية KDnuggets ، Gregory Piatetsky-Shapiro (2007) استطلاع منهجية KDnuggets ، Gregory Piatetsky-Shapiro (2014) استطلاع منهجية KDnuggets
  19. ^ Lukasz Kurgan و Petr Musilek: "مسح لاكتشاف المعرفة ونماذج عملية التنقيب في البيانات" . مراجعة هندسة المعرفة . المجلد 21 العدد 1 ، مارس 2006 ، الصفحات 1-24 ، Cambridge University Press ، New York ، دوى : 10.1017 / S0269888906000737
  20. ^ Azevedo ، A. and Santos ، MF KDD ، SEMMA و CRISP-DM: نظرة عامة موازية أرشفة 2013-01-09 في آلة Wayback ... في وقائع المؤتمر الأوروبي لتعدين البيانات IADIS 2008 ، ص 182 - 185.
  21. ^ هوكينز ، دوجلاس إم (2004). "مشكلة التحسين". مجلة المعلومات الكيميائية وعلوم الحاسوب . 44 (1): 1-12. دوى : 10.1021 / ci0342472 . بميد 14741005 . 
  22. ^ "Microsoft Academic Search: أهم المؤتمرات في التنقيب عن البيانات" . البحث الأكاديمي من Microsoft .
  23. ^ "الباحث العلمي من Google: أهم المنشورات - استخراج البيانات وتحليلها" . الباحث العلمي من Google .
  24. ^ الإجراءات أرشفة 2010-04-30 في آلة Wayback . ، المؤتمرات الدولية حول اكتشاف المعرفة واستخراج البيانات ، ACM ، نيويورك.
  25. ^ استكشافات SIGKDD ، إيه سي إم ، نيويورك.
  26. ^ جونيمان ، ستيفان ؛ كريمر ، هاردي سيدل ، توماس (2011). "امتداد لمعيار PMML لنماذج مجموعات الفراغات الجزئية". وقائع ورشة عمل 2011 حول نمذجة لغة الترميز التنبؤية . ص. 48. دوى : 10.1145 / 2023598.2023605 . رقم ISBN 978-1-4503-0837-3. S2CID  14967969 .
  27. ^ سيلتزر ، وليام (2005). "الوعد ومزالق التنقيب في البيانات: القضايا الأخلاقية" (PDF) . قسم ASA للإحصاءات الحكومية . الرابطة الإحصائية الأمريكية.
  28. ^ بيتس ، تشيب (15 مارس 2007). "نهاية التجسس المحلي غير المشروع؟ لا تعتمد عليه" . واشنطن سبيكتاتور . مؤرشفة من الأصلي في 2007-11-28.
  29. ^ Taipale ، Kim A. (15 كانون الأول 2003). "التنقيب عن البيانات والأمن الداخلي: ربط النقاط لفهم البيانات" . مراجعة قانون كولومبيا للعلوم والتكنولوجيا . 5 (2). OCLC 45263753 . SSRN 546782 .  
  30. ^ ريسيج ، جون. "إطار عمل لتعدين خدمات المراسلة الفورية" (PDF) . تم الاسترجاع 16 مارس 2018 .
  31. ^ أ ب ج فكر قبل الحفر: الآثار المترتبة على الخصوصية لتعدين البيانات وتجميعها أرشفة 2008-12-17 في آلة Wayback . ، موجز أبحاث NASCIO ، سبتمبر 2004
  32. ^ أوم ، بول. "لا تبني قاعدة بيانات للخراب" . هارفارد بيزنس ريفيو .
  33. ^ تم تحديد بيانات بحث AOL للأفراد ، SecurityFocus ، أغسطس 2006
  34. ^ كشيتري ، نير (2014). "تأثير البيانات الضخمة على الخصوصية والأمن ورفاهية المستهلك" (PDF) . سياسة الاتصالات . 38 (11): 1134-1145. دوى : 10.1016 / j.telpol.2014.10.002 .
  35. ^ وايس ، مارتن أ. ^ آرتشيك ، كريستين (19 مايو 2016). "خصوصية بيانات الولايات المتحدة والاتحاد الأوروبي: من Safe Harbor إلى Privacy Shield" (PDF) . خدمة أبحاث الكونغرس بواشنطن العاصمة. ص. 6. R44257 . تم الاسترجاع 9 أبريل 2020 . في 6 أكتوبر 2015 ، أصدرت CJEU  ... قرارًا يبطل قانون الملاذ الآمن (ساري المفعول على الفور) ، كما هو مطبق حاليًا.
  36. ^ باركر ، جورج. "الشركات البريطانية المستهدفة لاستخدام البيانات الضخمة لاستغلال العملاء." اشترك في قراءة | Financial Times ، Financial Times ، 30 سبتمبر 2018 ، https://www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647 .
  37. ^ محررو Biotech Business Week (30 يونيو 2008) ؛ الطب الحيوي. قاعدة خصوصية HIPAA تعيق البحث الطبي الحيوي ، أسبوع عمل التكنولوجيا الحيوية ، تم استرجاعه في 17 نوفمبر 2009 من LexisNexis Academic
  38. ^ منح باحثون بريطانيون حق التنقيب عن البيانات بموجب قوانين حقوق الطبع والنشر الجديدة في المملكة المتحدة. أرشفة 9 يونيو 2014 ، في آلة Wayback . Out-Law.com. تم الاسترجاع 14 نوفمبر 2014
  39. ^ "فيدلكس" .
  40. ^ "التراخيص لأوروبا - حوار أصحاب المصلحة المهيكلة 2013" . المفوضية الأوروبية . تم الاسترجاع 14 نوفمبر 2014 .
  41. ^ "التنقيب عن النصوص والبيانات: أهميتها والحاجة إلى التغيير في أوروبا" . رابطة مكتبات البحث الأوروبية . تم الاسترجاع 14 نوفمبر 2014 .
  42. ^ "القاضي يمنح حكمًا موجزًا ​​لصالح كتب Google - انتصار للاستخدام العادل" . Lexology.com . Antonelli Law Ltd. 19 نوفمبر 2013 . تم الاسترجاع 14 نوفمبر 2014 .

قراءات إضافية

  • كابينا ، بيتر ؛ هادجنيان ، بابلو. ستادلر ، رولف. فيرهيس ، ياب ؛ زاناسي ، أليساندرو (1997) ؛ اكتشاف التنقيب في البيانات: من المفهوم إلى التنفيذ ، برنتيس هول ، ISBN 0-13-743980-6 
  • MS Chen، J. Han، PS Yu (1996) " استخراج البيانات: نظرة عامة من منظور قاعدة البيانات ". هندسة المعرفة والبيانات ، معاملات IEEE في 8 (6) ، 866-883
  • فيلدمان ، رونين ؛ سانجر ، جيمس (2007) ؛ دليل تعدين النص ، مطبعة جامعة كامبريدج ، ISBN 978-0-521-83657-9 
  • قوه ، ييك وغروسمان ، روبرت (محررون) (1999) ؛ استخراج البيانات عالي الأداء: خوارزميات القياس والتطبيقات والأنظمة ، Kluwer Academic Publishers
  • هان وجياوي وميشلين كامبر وجيان باي. التنقيب عن البيانات: المفاهيم والتقنيات . مورجان كوفمان ، 2006.
  • هاستي ، تريفور ، تيبشيراني ، روبرت وفريدمان ، جيروم (2001) ؛ عناصر التعلم الإحصائي: التنقيب في البيانات والاستدلال والتنبؤ ، سبرينغر ، ISBN 0-387-95284-5 
  • ليو ، بنج (2007 ، 2011) ؛ التنقيب في بيانات الويب: استكشاف الارتباطات التشعبية والمحتويات وبيانات الاستخدام ، Springer ، ISBN 3-540-37881-2 
  • ميرفي ، كريس (16 مايو 2011). "هل تعدين البيانات مجاني الكلام؟". أسبوع المعلومات : 12.
  • نيسبت ، روبرت ؛ الشيخ ، جون ؛ مينر ، غاري (2009) ؛ كتيب التحليل الإحصائي وتطبيقات التنقيب في البيانات ، المطبعة الأكاديمية / إلسفير ، ISBN 978-0-12-374765-5 
  • بونسيليه ، باسكال ؛ ماسيجليا ، فلوران. وتيسير ، ماغويلون (محررون) (أكتوبر 2007) ؛ "أنماط استخراج البيانات: طرق وتطبيقات جديدة" ، مرجع علوم المعلومات ، ISBN 978-1-59904-162-9 
  • تان ، بانغ نينغ ؛ شتاينباخ ، مايكل ؛ وكومار ، فيبين (2005) ؛ مقدمة في استخراج البيانات ، ISBN 0-321-32136-7 
  • ثيودوريديس ، سيرجيوس. وكوترومباس ، كونستانتينوس (2009) ؛ التعرف على الأنماط ، الطبعة الرابعة ، الصحافة الأكاديمية ، ISBN 978-1-59749-272-0 
  • وايس ، شولوم م. اندورخيا ، نيتين (1998) ؛ التنقيب عن البيانات التنبؤية ، مورجان كوفمان
  • ويتن ، إيان هـ . فرانك ، إيبي ؛ هول ، مارك أ. (30 يناير 2011). التنقيب في البيانات: أدوات وتقنيات تعلم الآلة العملية (3 ed.). إلسفير. رقم ISBN 978-0-12-374856-0.(انظر أيضًا برنامج Weka المجاني )
  • يي نونج (2003) ؛ كتيب تعدين البيانات ، ماهوا ، نيوجيرسي: لورانس إيرلبوم

روابط خارجية