การขุดข้อมูล

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

การทำเหมืองข้อมูลเป็นกระบวนการของการสกัดและการค้นพบในรูปแบบที่มีขนาดใหญ่ชุดข้อมูลที่เกี่ยวข้องกับวิธีการที่จุดตัดของการเรียนรู้เครื่อง , สถิติและระบบฐานข้อมูล [1]การทำเหมืองข้อมูลเป็นสาขาย่อยแบบสหวิทยาการของวิทยาการคอมพิวเตอร์และสถิติโดยมีเป้าหมายโดยรวมในการดึงข้อมูล (ด้วยวิธีการที่ชาญฉลาด) จากชุดข้อมูลและแปลงข้อมูลให้เป็นโครงสร้างที่เข้าใจได้เพื่อการใช้งานต่อไป สาขาวิชาย่อยแบบสหวิทยาการนี้เป็นส่วนที่เกี่ยวข้องของวิทยาศาสตร์ข้อมูล ซึ่งเป็นสาขาวิชาที่กำลังจะมีขึ้นสำหรับนักศึกษาจำนวนมาก [1] [2] [3] [4]การทำเหมืองข้อมูลเป็นขั้นตอนการวิเคราะห์ของกระบวนการ "การค้นพบความรู้ในฐานข้อมูล" หรือ KDD [5]นอกเหนือจากขั้นตอนการวิเคราะห์ดิบก็ยังเกี่ยวข้องกับฐานข้อมูลและการจัดการข้อมูลด้านการประมวลผลข้อมูลก่อน , รูปแบบและการอนุมานพิจารณาตัวชี้วัด interestingness, ความซับซ้อนของการพิจารณาการโพสต์ของโครงสร้างค้นพบการสร้างภาพและการปรับปรุงออนไลน์ [1]

คำว่า "การทำเหมืองข้อมูล" คือการเรียกชื่อผิดเพราะเป้าหมายคือการสกัดของรูปแบบและความรู้จากข้อมูลจำนวนมากที่ไม่ได้สกัด ( เหมืองแร่ ) ข้อมูลตัวเอง[6]นอกจากนี้ยังเป็นbuzzword [7]และถูกนำไปใช้บ่อยในรูปแบบของข้อมูลขนาดใหญ่หรือการประมวลผลข้อมูล ( คอลเลกชัน , การสกัด , คลังสินค้า , การวิเคราะห์และสถิติ) เช่นเดียวกับแอพลิเคชันของระบบสนับสนุนการตัดสินใจคอมพิวเตอร์รวมทั้งปัญญาประดิษฐ์ (เช่นการเรียนรู้เครื่อง) และระบบธุรกิจอัจฉริยะหนังสือการทำเหมืองข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องจักรที่ใช้งานได้จริงด้วย Java [8] (ซึ่งครอบคลุมเนื้อหาการเรียนรู้ของเครื่องเป็นส่วนใหญ่) เดิมชื่อเป็นเพียงการเรียนรู้ของเครื่องที่ใช้งานได้จริงและคำว่าการทำเหมืองข้อมูลนั้นถูกเพิ่มเข้ามาเพื่อเหตุผลทางการตลาดเท่านั้น[9]บ่อยครั้งที่ข้อตกลงทั่วไปมากขึ้น ( ขนาดใหญ่ ) การวิเคราะห์ข้อมูลและการวิเคราะห์ -or เมื่อหมายถึงวิธีการที่เกิดขึ้นจริงปัญญาประดิษฐ์และการเรียนรู้เครื่องสรรพเหมาะสมมากขึ้น

งานการทำเหมืองข้อมูลที่เกิดขึ้นจริงเป็นกึ่งอัตโนมัติวิเคราะห์หรือโดยอัตโนมัติในปริมาณมากของข้อมูลที่จะสกัดไม่รู้จักมาก่อนรูปแบบที่น่าสนใจเช่นกลุ่มของระเบียนข้อมูล ( การวิเคราะห์กลุ่ม ) บันทึกที่ผิดปกติ ( ความผิดปกติการตรวจสอบ ) และการอ้างอิง ( เหมืองแร่กฎสมาคม , การขุดรูปแบบตามลำดับ ) นี้มักจะเกี่ยวข้องกับการใช้เทคนิคฐานข้อมูลเช่นดัชนีเชิงพื้นที่จากนั้นรูปแบบเหล่านี้จะถูกมองว่าเป็นข้อมูลสรุปประเภทหนึ่ง และอาจใช้ในการวิเคราะห์เพิ่มเติมหรือตัวอย่างเช่น ในการเรียนรู้ของเครื่องและการวิเคราะห์เชิงคาดการณ์. ยกตัวอย่างเช่นขั้นตอนการทำเหมืองข้อมูลอาจระบุหลายกลุ่มในข้อมูลซึ่งสามารถนำมาใช้เพื่อให้ได้ผลการทำนายที่แม่นยำยิ่งขึ้นด้วยระบบสนับสนุนการตัดสินใจ การรวบรวมข้อมูล การเตรียมข้อมูล หรือการตีความผลลัพธ์และการรายงานไม่ได้เป็นส่วนหนึ่งของขั้นตอนการทำเหมืองข้อมูล แต่จะไม่อยู่ในกระบวนการ KDD โดยรวมซึ่งเป็นขั้นตอนเพิ่มเติม

ความแตกต่างระหว่างการวิเคราะห์ข้อมูลและการทำเหมืองข้อมูลคือ การวิเคราะห์ข้อมูลใช้เพื่อทดสอบแบบจำลองและสมมติฐานในชุดข้อมูล เช่น การวิเคราะห์ประสิทธิภาพของแคมเปญการตลาด โดยไม่คำนึงถึงปริมาณข้อมูล ในทางตรงกันข้าม การทำเหมืองข้อมูลใช้การเรียนรู้ของเครื่องและแบบจำลองทางสถิติเพื่อเปิดเผยรูปแบบลับหรือที่ซ่อนอยู่ในข้อมูลปริมาณมาก [10]

เงื่อนไขการใช้บริการที่เกี่ยวข้องกับข้อมูลการขุดลอก , ตกปลาข้อมูลและข้อมูลการสอดแนมหมายถึงการใช้วิธีการทำเหมืองข้อมูลไปยังส่วนตัวอย่างของชุดข้อมูลประชากรขนาดใหญ่ที่มี (หรืออาจจะ) ขนาดเล็กเกินไปสำหรับการหาข้อสรุปสถิติที่เชื่อถือได้ที่จะทำเกี่ยวกับความถูกต้องของใด ๆ รูปแบบที่ค้นพบ อย่างไรก็ตาม วิธีการเหล่านี้สามารถใช้ในการสร้างสมมติฐานใหม่เพื่อทดสอบกับประชากรข้อมูลที่มีขนาดใหญ่กว่า

นิรุกติศาสตร์

ในทศวรรษที่ 1960 นักสถิติและนักเศรษฐศาสตร์ใช้คำต่างๆ เช่น การตกปลาข้อมูลหรือการขุดลอกข้อมูลเพื่ออ้างถึงสิ่งที่พวกเขาพิจารณาว่าเป็นแนวปฏิบัติที่ไม่เหมาะสมในการวิเคราะห์ข้อมูลโดยไม่มีสมมติฐาน a-priori คำว่า "การทำเหมืองข้อมูล" ถูกใช้ในลักษณะที่วิพากษ์วิจารณ์ในทำนองเดียวกันโดยนักเศรษฐศาสตร์Michael Lovellในบทความที่ตีพิมพ์ในการทบทวนการศึกษาเศรษฐศาสตร์ในปี 1983 [11] [12]โลเวลล์ระบุว่าการปฏิบัติ "ปลอมตัวภายใต้นามแฝงต่างๆ จาก "การทดลอง" (บวก) ถึง "การตกปลา" หรือ "การสอดแนม" (เชิงลบ)

คำว่าการทำเหมืองข้อมูลปรากฏขึ้นในช่วงปี 1990 ในชุมชนฐานข้อมูล โดยทั่วไปมีความหมายในทางบวก ในช่วงเวลาสั้น ๆ ในปี 1980 มีการใช้วลี "database mining"™ แต่เนื่องจากเป็นเครื่องหมายการค้าของ HNC ซึ่งเป็นบริษัทในซานดิเอโก เพื่อนำเสนอ Database Mining Workstation [13]นักวิจัยจึงหันไปทำเหมืองข้อมูลเงื่อนไขอื่น ๆ ที่นำมาใช้ ได้แก่โบราณคดีข้อมูล , การเก็บเกี่ยวข้อมูล , การค้นพบข้อมูล , การสกัดความรู้อื่น ๆเกรกอรี่ Piatetsky-ชาปิโรบัญญัติศัพท์คำว่า "ค้นพบความรู้ในฐานข้อมูล" สำหรับการประชุมเชิงปฏิบัติการครั้งแรกในหัวข้อเดียวกัน(KDD-1989)และคำนี้ได้รับความนิยมมากขึ้นในชุมชนAIและการเรียนรู้ของเครื่องอย่างไรก็ตาม การทำเหมืองข้อมูลระยะได้รับความนิยมมากขึ้นในธุรกิจและชุมชนสื่อมวลชน[14]ปัจจุบัน คำว่าการขุดข้อมูลและการค้นพบความรู้ใช้แทนกันได้

ในชุมชนวิชาการ ฟอรัมหลักสำหรับการวิจัยเริ่มต้นขึ้นในปี 1995 เมื่อการประชุมระหว่างประเทศครั้งแรกเกี่ยวกับการขุดข้อมูลและการค้นพบความรู้ ( KDD-95 ) เริ่มขึ้นในเมืองมอนทรีออลภายใต้การสนับสนุนของAAAIโดยมีUsama Fayyadและ Ramasamy Uthurusam เป็นประธานร่วมอีกหนึ่งปีต่อมา ในปี 1996 Usama Fayyad ได้เปิดตัววารสารของ Kluwer ที่เรียกว่าData Mining และ Knowledge Discoveryเป็นหัวหน้าบรรณาธิการผู้ก่อตั้ง หลังจากนั้นเขาก็เริ่มSIGKDDจดหมายข่าว SIGKDD Explorations [15]การประชุมนานาชาติของ KDD กลายเป็นการประชุมคุณภาพสูงสุดเบื้องต้นในการทำเหมืองข้อมูล โดยมีอัตราการตอบรับการส่งรายงานการวิจัยต่ำกว่า 18% วารสารData Mining and Knowledge Discoveryเป็นวารสารวิจัยหลักของภาคสนาม

ความเป็นมา

การแยกรูปแบบจากข้อมูลด้วยตนเองเกิดขึ้นมานานหลายศตวรรษ วิธีการเริ่มต้นของการระบุรูปแบบในข้อมูล ได้แก่Bayes' ทฤษฎีบท (1700s) และการวิเคราะห์การถดถอย (1800) [16]การแพร่หลาย การแพร่หลาย และพลังที่เพิ่มขึ้นของเทคโนโลยีคอมพิวเตอร์ได้เพิ่มความสามารถในการรวบรวมข้อมูล การจัดเก็บ และการจัดการข้อมูลอย่างมาก ในฐานะที่เป็นชุดข้อมูลที่มีการเติบโตในขนาดและความซับซ้อนโดยตรง "มือบน" การวิเคราะห์ข้อมูลได้มากขึ้นรับผลดีกับทางอ้อมการประมวลผลข้อมูลอัตโนมัติรับความช่วยเหลือจากการค้นพบอื่น ๆ ในวิทยาการคอมพิวเตอร์เป็นพิเศษในด้านการเรียนรู้ของเครื่องเช่นเครือข่ายประสาท , การวิเคราะห์คลัสเตอร์ , อัลกอริธึมทางพันธุกรรม(ทศวรรษ 1950) แผนผังการตัดสินใจและกฎการตัดสินใจ (ทศวรรษ 1960) และเวกเตอร์เครื่องสนับสนุน (ทศวรรษ 1990) การทำเหมืองข้อมูลเป็นกระบวนการของการนำวิธีการเหล่านี้ไปใช้เพื่อเปิดเผยรูปแบบที่ซ่อนอยู่ [17]ในชุดข้อมูลขนาดใหญ่ มันเชื่อมช่องว่างจากสถิติประยุกต์และปัญญาประดิษฐ์ (ซึ่งมักจะให้พื้นหลังทางคณิตศาสตร์) กับการจัดการฐานข้อมูลโดยใช้ประโยชน์จากวิธีการจัดเก็บและจัดทำดัชนีข้อมูลในฐานข้อมูลเพื่อดำเนินการเรียนรู้จริงและอัลกอริธึมการค้นพบอย่างมีประสิทธิภาพมากขึ้น ทำให้สามารถนำวิธีการดังกล่าวไปใช้กับ ชุดข้อมูลที่ใหญ่ขึ้นเรื่อยๆ

กระบวนการ

กระบวนการค้นพบความรู้ในฐานข้อมูล (KDD)โดยทั่วไปมีการกำหนดขั้นตอนดังนี้

  1. การคัดเลือก
  2. ก่อนการประมวลผล
  3. การแปลงร่าง
  4. การขุดข้อมูล
  5. การตีความ/การประเมิน [5]

อย่างไรก็ตาม มีอยู่ในรูปแบบต่างๆ มากมายในหัวข้อนี้ เช่นกระบวนการมาตรฐานข้ามอุตสาหกรรมสำหรับการทำเหมืองข้อมูล (CRISP-DM) ซึ่งกำหนดหกขั้นตอน:

  1. ความเข้าใจทางธุรกิจ
  2. ความเข้าใจข้อมูล
  3. การเตรียมข้อมูล
  4. การสร้างแบบจำลอง
  5. การประเมิน
  6. การปรับใช้

หรือกระบวนการที่ง่ายขึ้น เช่น (1) การประมวลผลล่วงหน้า (2) การทำเหมืองข้อมูล และ (3) การตรวจสอบผลลัพธ์

โพลที่ดำเนินการในปี 2545, 2547, 2550 และ 2557 แสดงให้เห็นว่าระเบียบวิธี CRISP-DM เป็นวิธีการชั้นนำที่นักขุดข้อมูลใช้ [18]มาตรฐานการทำเหมืองข้อมูลเฉพาะอื่น ๆ ที่มีชื่ออยู่ในโพลนี้คือSEMMA อย่างไรก็ตาม ผู้คนจำนวนมากรายงานว่าใช้ CRISP-DM 3-4 เท่า นักวิจัยหลายทีมได้ตีพิมพ์บทวิจารณ์เกี่ยวกับแบบจำลองกระบวนการทำเหมืองข้อมูล[19]และ Azevedo และ Santos ได้ทำการเปรียบเทียบ CRISP-DM และ SEMMA ในปี 2008 [20]

การประมวลผลล่วงหน้า

ก่อนที่จะใช้อัลกอริธึมการขุดข้อมูล จะต้องประกอบชุดข้อมูลเป้าหมาย เนื่องจากการทำเหมืองข้อมูลสามารถเปิดเผยรูปแบบที่มีอยู่จริงในข้อมูลได้เท่านั้น ชุดข้อมูลเป้าหมายต้องมีขนาดใหญ่พอที่จะบรรจุรูปแบบเหล่านี้ได้ ในขณะที่ยังคงมีความกระชับพอที่จะขุดได้ภายในระยะเวลาที่ยอมรับได้ แหล่งที่พบบ่อยสำหรับข้อมูลที่เป็นข้อมูลมาร์ทหรือคลังข้อมูล การประมวลผลล่วงหน้าเป็นสิ่งสำคัญในการวิเคราะห์ชุดข้อมูลหลายตัวแปรก่อนการทำเหมืองข้อมูล จากนั้นล้างชุดเป้าหมาย ทำความสะอาดข้อมูลเอาข้อสังเกตที่มีสัญญาณรบกวนและผู้ที่มีข้อมูลที่ขาดหายไป

การขุดข้อมูล

การทำเหมืองข้อมูลเกี่ยวข้องกับงานทั่วไปหกประเภท: [5]

  • การตรวจจับความผิดปกติ (outlier/change/deviation detection) – การระบุบันทึกข้อมูลที่ผิดปกติ ที่อาจน่าสนใจ หรือข้อผิดพลาดของข้อมูลที่ต้องตรวจสอบเพิ่มเติม
  • การเรียนรู้กฎการเชื่อมโยง (การสร้างแบบจำลองการพึ่งพา) – ค้นหาความสัมพันธ์ระหว่างตัวแปร ตัวอย่างเช่น ซูเปอร์มาร์เก็ตอาจรวบรวมข้อมูลเกี่ยวกับพฤติกรรมการซื้อของลูกค้า การใช้การเรียนรู้กฎของสมาคมทำให้ซูเปอร์มาร์เก็ตสามารถระบุได้ว่าผลิตภัณฑ์ใดที่ซื้อร่วมกันบ่อยและใช้ข้อมูลนี้เพื่อวัตถุประสงค์ทางการตลาด นี้บางครั้งเรียกว่าการวิเคราะห์ตะกร้าตลาด
  • การทำคลัสเตอร์ – เป็นภารกิจในการค้นหากลุ่มและโครงสร้างในข้อมูลที่มีความ "คล้ายคลึง" ไม่ทางใดก็ทางหนึ่ง โดยไม่ต้องใช้โครงสร้างที่รู้จักในข้อมูล
  • การจัดประเภท - เป็นงานของการสรุปโครงสร้างที่รู้จักเพื่อนำไปใช้กับข้อมูลใหม่ ตัวอย่างเช่น โปรแกรมอีเมลอาจพยายามจัดประเภทอีเมลเป็น "ถูกต้องตามกฎหมาย" หรือเป็น "สแปม"
  • การถดถอย – พยายามค้นหาฟังก์ชันที่จำลองข้อมูลโดยมีข้อผิดพลาดน้อยที่สุด นั่นคือ สำหรับการประมาณความสัมพันธ์ระหว่างข้อมูลหรือชุดข้อมูล
  • การสรุป – ให้การแสดงชุดข้อมูลที่มีขนาดกะทัดรัดยิ่งขึ้น รวมถึงการสร้างภาพและการสร้างรายงาน

การตรวจสอบผลลัพธ์

ตัวอย่างของข้อมูลที่เกิดจากการขุดลอกข้อมูลผ่านบอทที่ดำเนินการโดยนักสถิติ Tyler Vigen เห็นได้ชัดว่ามีความเชื่อมโยงอย่างใกล้ชิดระหว่างคำที่ดีที่สุดที่ชนะการแข่งขันการสะกดคำและจำนวนผู้คนในสหรัฐอเมริกาที่ฆ่าโดยแมงมุมมีพิษ ความคล้ายคลึงกันของแนวโน้มเห็นได้ชัดว่าเป็นเรื่องบังเอิญ

การทำเหมืองข้อมูลอาจถูกนำไปใช้ในทางที่ผิดโดยไม่ได้ตั้งใจ และจากนั้นสามารถสร้างผลลัพธ์ที่ดูเหมือนว่ามีนัยสำคัญ ซึ่งไม่ได้ทำนายพฤติกรรมในอนาคตจริง ๆ และไม่สามารถทำซ้ำกับตัวอย่างข้อมูลใหม่และใช้งานน้อย บ่อยครั้งที่ผลการนี้จากการตรวจสอบสมมติฐานมากเกินไปและไม่ได้ดำเนินการที่เหมาะสมการทดสอบสมมติฐานทางสถิติเวอร์ชันง่ายๆ ของปัญหานี้ในการเรียนรู้ของเครื่องเรียกว่าoverfittingแต่ปัญหาเดียวกันอาจเกิดขึ้นได้ในขั้นตอนต่างๆ ของกระบวนการ ดังนั้นการแยกการฝึก/การทดสอบ—เมื่อทำได้—อาจไม่เพียงพอต่อการป้องกันไม่ให้เกิดเหตุการณ์นี้ขึ้น[21]

ขั้นตอนสุดท้ายของการค้นพบความรู้จากข้อมูลคือการตรวจสอบว่ารูปแบบที่สร้างโดยอัลกอริธึมการทำเหมืองข้อมูลเกิดขึ้นในชุดข้อมูลที่กว้างขึ้น ไม่ใช่ทุกรูปแบบที่พบโดยอัลกอริธึมการทำเหมืองข้อมูลจะถูกต้องเสมอไป เป็นเรื่องปกติที่อัลกอริธึมการทำเหมืองข้อมูลจะค้นหารูปแบบในชุดการฝึกที่ไม่มีอยู่ในชุดข้อมูลทั่วไป นี้เรียกว่าอิงเพื่อเอาชนะสิ่งนี้ การประเมินจะใช้ชุดทดสอบของข้อมูลที่ไม่ได้รับการฝึกอบรมอัลกอริทึมการทำเหมืองข้อมูล รูปแบบที่เรียนรู้จะถูกนำไปใช้กับชุดการทดสอบนี้ และผลลัพธ์ที่ได้จะถูกเปรียบเทียบกับผลลัพธ์ที่ต้องการ ตัวอย่างเช่น อัลกอริธึมการขุดข้อมูลที่พยายามแยกแยะ "สแปม" กับอีเมลที่ "ถูกกฎหมาย" จะได้รับการฝึกอบรมในชุดการฝึกของอีเมลตัวอย่าง เมื่อได้รับการฝึกอบรมแล้ว รูปแบบการเรียนรู้จะถูกนำไปใช้กับชุดทดสอบของอีเมลที่ไม่ได้รับการฝึกอบรม ความแม่นยำของรูปแบบสามารถวัดได้จากจำนวนอีเมลที่จัดประเภทอย่างถูกต้อง วิธีการทางสถิติหลายอาจจะใช้ในการประเมินขั้นตอนวิธีการเช่นเส้นโค้ง ROC

หากรูปแบบที่เรียนรู้ไม่เป็นไปตามมาตรฐานที่ต้องการ ต่อมาจำเป็นต้องประเมินใหม่และเปลี่ยนขั้นตอนก่อนการประมวลผลและการทำเหมืองข้อมูล หากรูปแบบการเรียนรู้เป็นไปตามมาตรฐานที่ต้องการ ขั้นตอนสุดท้ายคือการตีความรูปแบบที่เรียนรู้แล้วเปลี่ยนเป็นความรู้

การวิจัย

หน่วยงานชั้นนำระดับมืออาชีพในสาขานี้คือAssociation for Computing Machinery 's (ACM) Special Interest Group (SIG) ด้านการค้นพบความรู้และการทำเหมืองข้อมูล ( SIGKDD ) [22] [23]ตั้งแต่ปี 1989 ACM SIG นี้ได้จัดการประชุมนานาชาติประจำปีและตีพิมพ์การดำเนินการ[24]และตั้งแต่ปี 1999 ก็ได้ตีพิมพ์วารสารวิชาการรายครึ่งปีชื่อ "SIGKDD Explorations" [25]

การประชุมวิทยาการคอมพิวเตอร์เกี่ยวกับการขุดข้อมูลรวมถึง:

หัวข้อการทำเหมืองข้อมูลยังมีอยู่ในการประชุมการจัดการข้อมูล/ฐานข้อมูลจำนวนมากเช่น การประชุม ICDE การประชุมSIGMODและการประชุมระหว่างประเทศเกี่ยวกับฐานข้อมูลขนาดใหญ่มาก

มาตรฐาน

มีความพยายามที่จะกำหนดมาตรฐานสำหรับกระบวนการทำเหมืองข้อมูล ตัวอย่างเช่นกระบวนการมาตรฐานข้ามอุตสาหกรรมแห่งยุโรปปี 1999 สำหรับการทำเหมืองข้อมูล (CRISP-DM 1.0) และมาตรฐานการทำเหมืองข้อมูล Javaปี 2004 (JDM 1.0) การพัฒนาตัวต่อจากกระบวนการเหล่านี้ (CRISP-DM 2.0 และ JDM 2.0) เริ่มดำเนินการในปี 2549 แต่หยุดชะงักลงตั้งแต่นั้นเป็นต้นมา JDM 2.0 ถูกถอนออกโดยไม่ถึงร่างสุดท้าย

สำหรับการแลกเปลี่ยนแบบจำลองที่แยกออกมา โดยเฉพาะสำหรับใช้ในการวิเคราะห์เชิงคาดการณ์มาตรฐานหลักคือPredictive Model Markup Language (PMML) ซึ่งเป็นภาษาที่ใช้XML ที่พัฒนาโดย Data Mining Group (DMG) และรองรับรูปแบบการแลกเปลี่ยนโดยหลาย ๆ คน แอปพลิเคชันการทำเหมืองข้อมูล ตามชื่อที่แนะนำ มันครอบคลุมเฉพาะแบบจำลองการคาดการณ์ ซึ่งเป็นงานเหมืองข้อมูลเฉพาะที่มีความสำคัญสูงต่อแอปพลิเคชันทางธุรกิจ อย่างไรก็ตาม การขยายเพื่อครอบคลุม (ตัวอย่าง) การจัดกลุ่มพื้นที่ย่อยได้รับการเสนอโดยไม่ขึ้นกับ DMG (26)

การใช้งานที่โดดเด่น

การขุดข้อมูลถูกใช้ทุกที่ที่มีข้อมูลดิจิทัลในปัจจุบัน ตัวอย่างที่โดดเด่นของการทำเหมืองข้อมูลสามารถพบได้ทั่วทั้งธุรกิจ การแพทย์ วิทยาศาสตร์ และการเฝ้าระวัง

ข้อกังวลด้านความเป็นส่วนตัวและจริยธรรม

แม้ว่าคำว่า "การทำเหมืองข้อมูล" เองอาจไม่มีความหมายทางจริยธรรม แต่ก็มักเกี่ยวข้องกับการขุดข้อมูลที่สัมพันธ์กับพฤติกรรมของประชาชน (ตามหลักจริยธรรมและอื่น ๆ) [27]

วิธีการใช้เหมืองข้อมูลในบางกรณีและบริบททำให้เกิดคำถามเกี่ยวกับความเป็นส่วนตัว ความถูกต้องตามกฎหมาย และจริยธรรม[28]โดยเฉพาะอย่างยิ่ง รัฐบาลการทำเหมืองข้อมูลหรือชุดข้อมูลเชิงพาณิชย์สำหรับวัตถุประสงค์ด้านความมั่นคงแห่งชาติหรือการบังคับใช้กฎหมาย เช่น ในโปรแกรมTotal Information AwarenessหรือในADVISEได้หยิบยกข้อกังวลเรื่องความเป็นส่วนตัวขึ้น[29] [30]

การทำเหมืองข้อมูลต้องมีการเตรียมข้อมูลที่เปิดเผยข้อมูลหรือรูปแบบที่กระทบต่อการรักษาความลับและภาระผูกพันด้านความเป็นส่วนตัว วิธีการทั่วไปสำหรับเรื่องนี้จะเกิดขึ้นก็คือการรวบรวมข้อมูลการรวมข้อมูลเกี่ยวข้องกับการรวมข้อมูลเข้าด้วยกัน (อาจมาจากแหล่งต่างๆ) ในลักษณะที่อำนวยความสะดวกในการวิเคราะห์[31]นี่ไม่ใช่การขุดข้อมูลต่อตัวแต่เป็นผลจากการจัดเตรียมข้อมูลก่อนและเพื่อวัตถุประสงค์ในการวิเคราะห์ ภัยคุกคามต่อความเป็นส่วนตัวของปัจเจกบุคคลเกิดขึ้นเมื่อข้อมูล เมื่อรวบรวมแล้ว ทำให้ผู้ขุดข้อมูล หรือใครก็ตามที่เข้าถึงชุดข้อมูลที่รวบรวมใหม่ สามารถระบุตัวบุคคลได้ โดยเฉพาะเมื่อข้อมูลนั้นไม่ระบุตัวตนในตอนแรก [32] [33] [34]

ขอแนะนำ[ ตามใคร? ]เพื่อรับทราบสิ่งต่อไปนี้ก่อนที่จะเก็บรวบรวมข้อมูล: [31]

  • วัตถุประสงค์ของการรวบรวมข้อมูลและโครงการขุดข้อมูลใดๆ (ที่ทราบ)
  • ข้อมูลจะถูกใช้อย่างไร
  • ใครจะสามารถขุดข้อมูลและใช้ข้อมูลและอนุพันธ์ของข้อมูลได้
  • สถานะการรักษาความปลอดภัยโดยรอบการเข้าถึงข้อมูล
  • ข้อมูลที่รวบรวมสามารถอัปเดตได้อย่างไร

ข้อมูลยังอาจถูกปรับเปลี่ยนเพื่อให้เป็นไปกลายเป็นที่ไม่ระบุชื่อเพื่อให้บุคคลที่อาจจะไม่พร้อมที่จะมีการระบุ[31]อย่างไรก็ตาม แม้แต่ชุดข้อมูล "ที่ไม่ระบุชื่อ" ก็อาจมีข้อมูลเพียงพอที่จะระบุตัวบุคคลได้ ดังที่เกิดขึ้นเมื่อนักข่าวสามารถค้นหาบุคคลหลายคนตามชุดของประวัติการค้นหาที่ AOL เผยแพร่โดยไม่ได้ตั้งใจ[35]

การเปิดเผยข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้โดยไม่ตั้งใจซึ่งนำไปสู่ผู้ให้บริการถือเป็นการละเมิดแนวทางปฏิบัติด้านข้อมูลอย่างเป็นธรรม ความไม่รอบคอบนี้สามารถก่อให้เกิดอันตรายทางการเงิน อารมณ์ หรือร่างกายแก่บุคคลที่ระบุ ในกรณีหนึ่งของการละเมิดความเป็นส่วนตัวผู้อุปถัมภ์ของ Walgreens ได้ยื่นฟ้องบริษัทในปี 2554 เพื่อขายข้อมูลใบสั่งยาให้กับบริษัทเหมืองข้อมูล ซึ่งจะเป็นผู้ให้ข้อมูลแก่บริษัทยา (36)

สถานการณ์ในยุโรป

ยุโรปมีกฎหมายความเป็นส่วนตัวที่ค่อนข้างเข้มงวด และกำลังดำเนินการเพื่อเสริมสร้างสิทธิของผู้บริโภคต่อไป อย่างไรก็ตามหลักการ Safe Harbor Principlesของสหรัฐอเมริกา–สหภาพยุโรปซึ่งพัฒนาขึ้นระหว่างปี 2541 ถึง พ.ศ. 2543 ในปัจจุบัน ทำให้ผู้ใช้ในยุโรปเสี่ยงต่อการถูกเอารัดเอาเปรียบด้านความเป็นส่วนตัวโดยบริษัทในสหรัฐอเมริกา ในฐานะที่เป็นผลของเอ็ดเวิร์ดสโนว์เดน 's การเปิดเผยข้อมูลการเฝ้าระวังทั่วโลกได้มีการเพิ่มขึ้นอภิปรายที่จะยกเลิกข้อตกลงนี้เป็นโดยเฉพาะอย่างยิ่งในข้อมูลจะได้สัมผัสอย่างเต็มที่เพื่อความมั่นคงแห่งชาติและความพยายามที่จะบรรลุข้อตกลงกับประเทศสหรัฐอเมริกาได้ล้มเหลว[37]

โดยเฉพาะอย่างยิ่งในสหราชอาณาจักร มีบางกรณีของบริษัทที่ใช้การทำเหมืองข้อมูลเพื่อกำหนดเป้าหมายกลุ่มลูกค้าบางกลุ่มที่บังคับให้พวกเขาจ่ายในราคาที่สูงอย่างไม่เป็นธรรม กลุ่มเหล่านี้มีแนวโน้มที่จะเป็นคนที่มีสถานะทางเศรษฐกิจและสังคมต่ำกว่าที่ไม่เข้าใจวิธีที่พวกเขาสามารถใช้ประโยชน์ได้ในตลาดดิจิทัล [38]

สถานการณ์ในสหรัฐอเมริกา

ในสหรัฐอเมริกา สภาคองเกรสแห่งสหรัฐอเมริกาได้แก้ไขข้อกังวลเรื่องความเป็นส่วนตัวผ่านการดำเนินการควบคุมด้านกฎระเบียบ เช่นHealth Insurance Portability and Accountability Act (HIPAA) HIPAA กำหนดให้บุคคลต้อง "ยินยอมตามข้อมูล" ของตนเกี่ยวกับข้อมูลที่พวกเขาให้และวัตถุประสงค์การใช้งานในปัจจุบันและอนาคต ตามบทความในสัปดาห์ธุรกิจเทคโนโลยีชีวภาพ "" [i] ในทางปฏิบัติ HIPAA อาจไม่ให้ความคุ้มครองใด ๆ มากไปกว่ากฎระเบียบที่มีมายาวนานในเวทีการวิจัย" AAHC กล่าว ที่สำคัญกว่านั้น เป้าหมายของกฎในการป้องกันผ่านการรับทราบและยินยอมคือ เข้าถึงระดับความไม่เข้าใจของคนทั่วไป" [39] สิ่งนี้เน้นย้ำถึงความจำเป็นในการไม่เปิดเผยตัวตนของข้อมูลในการรวบรวมข้อมูลและแนวทางปฏิบัติในการขุด

กฎหมายว่าด้วยความเป็นส่วนตัวของข้อมูลของสหรัฐอเมริกา เช่น HIPAA และFamily Educational Rights and Privacy Act (FERPA) มีผลบังคับใช้เฉพาะกับพื้นที่เฉพาะที่กฎหมายแต่ละฉบับระบุไว้ การใช้การทำเหมืองข้อมูลโดยธุรกิจส่วนใหญ่ในสหรัฐอเมริกาไม่ได้ถูกควบคุมโดยกฎหมายใดๆ

กฎหมายลิขสิทธิ์

สถานการณ์ในยุโรป

ภายใต้กฎหมายลิขสิทธิ์และฐานข้อมูลของยุโรปการขุดผลงานที่มีลิขสิทธิ์ (เช่น โดยการทำเหมืองข้อมูลทางเว็บ ) โดยไม่ได้รับอนุญาตจากเจ้าของลิขสิทธิ์นั้นไม่ถูกกฎหมาย ที่ไหนฐานข้อมูลเป็นข้อมูลที่บริสุทธิ์ในยุโรปก็อาจเป็นได้ว่าไม่มีลิขสิทธิ์ แต่อาจมีอยู่ในฐานข้อมูลเพื่อการทำเหมืองข้อมูลกลายเป็นเรื่องที่ทรัพย์สินทางปัญญาสิทธิของเจ้าของที่มีการป้องกันโดยDirective ฐานข้อมูลตามคำแนะนำของที่รีวิวฮาร์กรีฟนี้นำไปสู่รัฐบาลสหราชอาณาจักรในการแก้ไขกฎหมายลิขสิทธิ์ของตนในปี 2014 ที่จะช่วยให้การทำเหมืองแร่เนื้อหาเป็นข้อ จำกัด และข้อยกเว้น[40]สหราชอาณาจักรเป็นประเทศที่สองในโลกที่ทำเช่นนั้น รองจากญี่ปุ่น ซึ่งแนะนำข้อยกเว้นสำหรับการขุดข้อมูลในปี 2552 อย่างไรก็ตาม เนื่องจากข้อจำกัดของInformation Society Directive (2001) ข้อยกเว้นของสหราชอาณาจักรจึงอนุญาตให้ทำการขุดเนื้อหาเพื่อจุดประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น กฎหมายลิขสิทธิ์ของสหราชอาณาจักรยังไม่อนุญาตให้บทบัญญัตินี้ถูกแทนที่ด้วยข้อกำหนดและเงื่อนไขตามสัญญา

คณะกรรมาธิการยุโรปอำนวยความสะดวกในการสนทนาของผู้มีส่วนได้ส่วนเสียในข้อความและการทำเหมืองข้อมูลในปี 2013 ภายใต้ชื่อของใบอนุญาตสำหรับยุโรป [41]การมุ่งเน้นไปที่การแก้ปัญหาทางกฎหมายนี้ เช่น การออกใบอนุญาตมากกว่าข้อจำกัดและข้อยกเว้น นำไปสู่ตัวแทนของมหาวิทยาลัย นักวิจัย ห้องสมุด กลุ่มประชาสังคม และผู้เผยแพร่ที่เข้าถึงได้เพื่อออกจากการเจรจาของผู้มีส่วนได้ส่วนเสียในเดือนพฤษภาคม 2013 [42 ]

สถานการณ์ในสหรัฐอเมริกา

กฎหมายลิขสิทธิ์ของสหรัฐอเมริกาและโดยเฉพาะอย่างยิ่ง บทบัญญัติสำหรับการใช้โดยชอบ ได้ยึดถือความถูกต้องตามกฎหมายของการขุดเนื้อหาในอเมริกา และประเทศที่มีการใช้งานโดยชอบอื่นๆ เช่น อิสราเอล ไต้หวัน และเกาหลีใต้ เนื่องจากการขุดเนื้อหาเป็นการเปลี่ยนแปลง ซึ่งไม่ได้แทนที่งานดั้งเดิม จึงถูกมองว่าชอบด้วยกฎหมายภายใต้การใช้งานโดยชอบธรรม ตัวอย่างเช่น ในส่วนหนึ่งของข้อตกลง Google Bookผู้พิพากษาที่เป็นประธานในคดีนี้ตัดสินว่าโครงการแปลงเป็นดิจิทัลของหนังสือที่มีลิขสิทธิ์ของ Google นั้นชอบด้วยกฎหมาย ส่วนหนึ่งเป็นเพราะการใช้การเปลี่ยนแปลงที่โปรเจ็กต์การแปลงเป็นดิจิทัลแสดง ซึ่งหนึ่งในนั้นคือการทำเหมืองข้อความและข้อมูล [43]

ซอฟต์แวร์

ซอฟต์แวร์และแอปพลิเคชันการทำเหมืองข้อมูลโอเพ่นซอร์สฟรี

แอปพลิเคชันต่อไปนี้มีให้ใช้งานภายใต้ใบอนุญาตฟรี/โอเพ่นซอร์ส การเข้าถึงซอร์สโค้ดของแอปพลิเคชันแบบสาธารณะก็มีให้เช่นกัน

  • Carrot2 : เฟรมเวิร์กการจัดกลุ่มข้อความและผลการค้นหา
  • Chemicalize.org : เครื่องมือขุดโครงสร้างทางเคมีและเครื่องมือค้นหาเว็บ
  • ELKI : โครงการวิจัยของมหาวิทยาลัยที่มีการวิเคราะห์คลัสเตอร์ขั้นสูงและวิธีการตรวจจับค่าผิดปกติที่เขียนด้วยภาษาJava
  • GATE : เครื่องมือประมวลผลภาษาธรรมชาติและวิศวกรรมภาษา
  • KNIME : Konstanz Information Miner ซึ่งเป็นเฟรมเวิร์กการวิเคราะห์ข้อมูลที่ครอบคลุมและเป็นมิตรกับผู้ใช้
  • Massive Online Analysis (MOA) : การขุดสตรีมข้อมูลขนาดใหญ่แบบเรียลไทม์ด้วยเครื่องมือดริฟท์แนวคิดในภาษาการเขียนโปรแกรมJava
  • MEPX : เครื่องมือข้ามแพลตฟอร์มสำหรับปัญหาการถดถอยและการจำแนกประเภทตามตัวแปร Genetic Programming
  • ML-Flex: แพ็คเกจซอฟต์แวร์ที่ช่วยให้ผู้ใช้สามารถผสานรวมกับแพ็คเกจการเรียนรู้ด้วยเครื่องของบริษัทอื่นที่เขียนในภาษาการเขียนโปรแกรมใดๆ ก็ตาม ดำเนินการวิเคราะห์การจำแนกประเภทแบบคู่ขนานกันในโหนดการคำนวณหลาย ๆ โหนด และสร้างรายงาน HTML ของผลการจำแนกประเภท
  • mlpack : ชุดของอัลกอริธึมการเรียนรู้ของเครื่องที่พร้อมใช้งานที่เขียนด้วยภาษาC++
  • NLTK ( Natural Language Toolkit ): ชุดไลบรารีและโปรแกรมสำหรับการประมวลผลภาษาธรรมชาติเชิงสัญลักษณ์และสถิติ (NLP) สำหรับภาษาPython
  • OpenNN : เปิดไลบรารีเครือข่ายประสาทเทียม
  • ออเรนจ์ : ชุดซอฟต์แวร์การทำเหมืองข้อมูลตามส่วนประกอบและการเรียนรู้ของเครื่องที่เขียนด้วยภาษาPython
  • PSPP : ซอฟต์แวร์ขุดข้อมูลและสถิติภายใต้โครงการ GNU คล้ายกับSPSS
  • R : ภาษาโปรแกรมและสภาพแวดล้อมของซอฟต์แวร์สำหรับการคำนวณทางสถิติ การทำเหมืองข้อมูล และกราฟิก มันเป็นส่วนหนึ่งของโครงการ GNU
  • Scikit-learn : ไลบรารีการเรียนรู้ของเครื่องโอเพ่นซอร์สสำหรับภาษาการเขียนโปรแกรม Python
  • Torch : ไลบรารีการเรียนรู้เชิงลึกแบบโอเพนซอร์ส สำหรับภาษาการเขียนโปรแกรมLuaและเฟรมเวิร์กการคำนวณทางวิทยาศาสตร์พร้อมการสนับสนุนอัลกอริธึมการเรียนรู้ของเครื่องอย่างกว้างขวาง
  • UIMA : UIMA (Unstructured Information Management Architecture) เป็นเฟรมเวิร์กคอมโพเนนต์สำหรับการวิเคราะห์เนื้อหาที่ไม่มีโครงสร้าง เช่น ข้อความ เสียง และวิดีโอ ซึ่งพัฒนาโดย IBM
  • Weka : ชุดซอฟต์แวร์การเรียนรู้ของเครื่องที่เขียนด้วยภาษาโปรแกรมJava

ซอฟต์แวร์และแอพพลิเคชั่นการทำเหมืองข้อมูลที่เป็นกรรมสิทธิ์

แอปพลิเคชันต่อไปนี้มีให้ใช้งานภายใต้สิทธิ์ใช้งานที่เป็นกรรมสิทธิ์

  • Angoss KnowledgeSTUDIO: เครื่องมือขุดข้อมูล
  • LIONsolver : แอปพลิเคชันซอฟต์แวร์แบบบูรณาการสำหรับการทำเหมืองข้อมูล ระบบธุรกิจอัจฉริยะ และการสร้างแบบจำลองที่ใช้แนวทาง Learning and Intelligent OptimizatioN (LION)
  • Megaputer หน่วยสืบราชการลับ: ข้อมูลและการทำเหมืองข้อความซอฟต์แวร์ที่เรียกว่าPolyAnalyst
  • ไมโครซอฟท์บริการการวิเคราะห์ : ซอฟแวร์การทำเหมืองข้อมูลให้โดยไมโครซอฟท์
  • NetOwl : ชุดผลิตภัณฑ์การวิเคราะห์ข้อความและเอนทิตีหลายภาษาที่เปิดใช้งานการทำเหมืองข้อมูล
  • ออราเคิล Data Mining : ซอฟแวร์การทำเหมืองข้อมูลโดยบริษัท ออราเคิลคอร์ปอเรชั่น
  • PSeven : แพลตฟอร์มสำหรับระบบอัตโนมัติของการจำลองและการวิเคราะห์ด้านวิศวกรรม, การเพิ่มประสิทธิภาพของสหสาขาวิชาชีพและการทำเหมืองข้อมูลให้โดยDATADVANCE
  • Qlucore Omics Explorer: ซอฟต์แวร์ขุดข้อมูล
  • RapidMiner : สภาพแวดล้อมสำหรับการเรียนรู้ของเครื่องและการทดลองทำเหมืองข้อมูล
  • SAS องค์กร Miner : ซอฟแวร์การทำเหมืองข้อมูลให้โดยSAS สถาบัน
  • SPSS Modeler : ซอฟแวร์การทำเหมืองข้อมูลให้โดยไอบีเอ็ม
  • STATISTICAข้อมูล Miner: ซอฟแวร์การทำเหมืองข้อมูลให้โดยStatSoft
  • Tanagra : ซอฟต์แวร์การทำเหมืองข้อมูลที่เน้นการแสดงภาพ สำหรับการสอนด้วย
  • Vertica : ซอฟแวร์การทำเหมืองข้อมูลให้โดยHewlett-Packard
  • ของ Google Cloud Platform : รุ่น ML กำหนดเองโดยอัตโนมัติจัดการโดยGoogle
  • Amazon SageMaker : บริการที่ได้รับการจัดการโดยAmazonสำหรับการสร้างและการผลิตโมเดล ML ที่กำหนดเอง

ดูเพิ่มเติม

วิธีการ
โดเมนแอปพลิเคชัน
ตัวอย่างการใช้งาน
หัวข้อที่เกี่ยวข้อง

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการดึงข้อมูลออกจากข้อมูล (ตรงข้ามกับการวิเคราะห์ข้อมูล) โปรดดูที่:

แหล่งข้อมูลอื่นๆ

อ้างอิง

  1. ^ a b c "หลักสูตรการทำเหมืองข้อมูล" . อสม . ซิกดีดี . 2549-04-30 . สืบค้นเมื่อ2014-01-27 .
  2. คลิฟตัน, คริสโตเฟอร์ (2010). "สารานุกรมบริแทนนิกา: คำจำกัดความของการขุดข้อมูล" . สืบค้นเมื่อ2010-12-09 .
  3. ^ เฮ สตี เทรเวอร์ ; ติบชิรานี, โรเบิร์ต ; ฟรีดแมน, เจอโรม (2009). "องค์ประกอบของการเรียนรู้ทางสถิติการทำเหมืองข้อมูล, การอนุมานและการทำนาย" เก็บถาวรจากต้นฉบับเมื่อ 2009-11-10 . สืบค้นเมื่อ2012-08-07 .
  4. ^ ฮั่น ไจเว่ย ; แคมเบอร์, มิชลิน; เป่ยเจียน (2011). การทำเหมืองข้อมูล: แนวคิดและเทคนิค (ฉบับที่ 3) มอร์แกน คอฟมันน์. ISBN 978-0-12-381479-1.
  5. อรรถa b c Fayyad, Usama ; Piatetsky-Shapiro, เกรกอรี ; สมิท, Padhraic (1996). "จากการขุดข้อมูลสู่การค้นพบความรู้ในฐานข้อมูล" (PDF) . สืบค้นเมื่อ17 ธันวาคม 2551 .
  6. ^ ฮั่น เจียเหว่ย ; แคมเบอร์, มิชลิน (2544). การทำเหมืองข้อมูล: แนวคิดและเทคนิค มอร์แกน คอฟมันน์ . NS. 5. ISBN 978-1-55860-489-6. ดังนั้นการทำเหมืองข้อมูลจึงควรได้รับการตั้งชื่อให้เหมาะสมกว่า "การขุดความรู้จากข้อมูล" ซึ่งค่อนข้างยาว
  7. ^ OKAIRP 2005 Fall Conference, Arizona State University เก็บถาวร 2014-02-01 ที่ Wayback Machine
  8. ^ วิทเทน เอียน เอช. ; แฟรงค์, Eibe; ฮอลล์, มาร์ค เอ. (2011). การทำเหมืองข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องจักรเชิงปฏิบัติ (ฉบับที่ 3) เอลส์เวียร์. ISBN 978-0-12-374856-0.
  9. ^ Bouckaert, Remco R .; แฟรงค์, Eibe; ฮอลล์ มาร์คเอ.; โฮล์มส์, เจฟฟรีย์; ฟาริงเกอร์, แบร์นฮาร์ด; Reutemann, ปีเตอร์; วิทเทน, เอียน เอช. (2010). "ประสบการณ์ WEKA กับโครงการโอเพ่นซอร์ส Java" วารสาร วิจัย เครื่อง เรียน รู้ . 11 : 2533–2541. ชื่อเดิม "การเรียนรู้ของเครื่องในทางปฏิบัติ" ถูกเปลี่ยน ... คำว่า "การทำเหมืองข้อมูล" ถูก [เพิ่ม] ขึ้นเพื่อเหตุผลทางการตลาดเป็นหลัก
  10. ^ โอลสัน, ดีแอล (2007). การทำเหมืองข้อมูลในธุรกิจบริการ ธุรกิจบริการ , 1 (3), 181–193. ดอย : 10.1007/s11628-006-0014-7
  11. ^ โลเวลล์, ไมเคิลซี (1983) "การทำเหมืองข้อมูล". การทบทวนเศรษฐศาสตร์และสถิติ . 65 (1): 1–12. ดอย : 10.2307/1924403 . JSTOR 1924403 . 
  12. ^ Charemza วอย W .; Deadman, ดีเร็ก เอฟ. (1992). "การทำเหมืองข้อมูล". ทิศทางใหม่ในการปฏิบัติทางเศรษฐมิติ อัลเดอร์ช็อต: เอ็ดเวิร์ด เอลการ์ น. 14–31. ISBN 1-85278-461-X.
  13. ^ Mena พระเยซู (2011) เครื่องเรียนรู้นิติสำหรับการบังคับใช้กฎหมายการรักษาความปลอดภัยและหน่วยสืบราชการลับ Boca Raton, FL: CRC Press (Taylor & Francis Group) ISBN 978-1-4398-6069-4.
  14. ^ Piatetsky-ชาปิโรเกรกอรี่ ; ปาร์คเกอร์, แกรี่ (2011). "บทเรียน: การขุดข้อมูลและการค้นพบความรู้: บทนำ" . รู้เบื้องต้นเกี่ยวกับการทำเหมืองข้อมูล KD นักเก็ต. สืบค้นเมื่อ30 สิงหาคม 2555 .
  15. ^ Fayyad อุซามะห์ (15 มิถุนายน 1999) "บทบรรณาธิการครั้งแรกโดย กองบรรณาธิการ" . SIGKDD Explorations 13 (1): 102. ดอย : 10.1145/2207243.2207269 . S2CID 13314420 . สืบค้นเมื่อ27 ธันวาคม 2010 . 
  16. ^ Coenen ฟรานส์ (2011/02/07) "การทำเหมืองข้อมูล: อดีต ปัจจุบัน และอนาคต" . ความรู้ทบทวนวิศวกรรม 26 (1): 25–29. ดอย : 10.1017/S0269888910000378 . ISSN 0269-8889 . 
  17. ^ Kantardzic เมห์เม็ด (2003) การทำเหมืองข้อมูล: แนวคิดรุ่นวิธีการและขั้นตอนวิธี จอห์น ไวลีย์ แอนด์ ซันส์. ISBN 978-0-471-22852-3. OCLC  50055336 .
  18. ^ เกรกอรี่ Piatetsky-ชาปิโรส์ (2002) KDnuggets วิธีโพล ,เกรกอรี่ Piatetsky-ชาปิโรส์ (2004) KDnuggets วิธีโพล ,เกรกอรี่ Piatetsky-ชาปิโรส์ (2007) KDnuggets วิธีโพล ,เกรกอรี่ Piatetsky-ชาปิโรส์ (2014) KDnuggets วิธีโพล
  19. ^ Lukasz Kurgan และ Petr Musilek:"การสำรวจค้นพบความรู้และการทำเหมืองข้อมูลแบบจำลองกระบวนการ" ความรู้ทบทวนวิศวกรรม Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York,ดอย : 10.1017/S0269888906000737
  20. ^ ช่า, A. และซานโตส, MF KDD, SEMMA และคมชัด-DM: ภาพรวมขนาน ที่จัดเก็บ 2013-01-09 ที่เครื่อง Wayback ในการดำเนินการของการประชุม IADIS European Conference on Data Mining 2008, หน้า 182–185
  21. ^ ฮอว์กินส์ ดักลาส เอ็ม (2004) "ปัญหาการสวมใส่มากเกินไป". วารสาร สารสนเทศ เคมี และ วิทยาการ คอมพิวเตอร์ . 44 (1): 1–12. ดอย : 10.1021/ci0342472 . PMID 14741005 . 
  22. ^ "Microsoft Academic Search: การประชุมระดับสุดยอดในการทำเหมืองข้อมูล" . การค้นหาของ Microsoft วิชาการ
  23. ^ "Google Scholar: สิ่งพิมพ์ยอดนิยม - การทำเหมืองข้อมูลและการวิเคราะห์" . Google Scholar
  24. ^ การดำเนินการ จัดเก็บ 2010-04-30 ที่เครื่อง Wayback , การจัดประชุมนานาชาติเกี่ยวกับการค้นพบความรู้และการทำเหมืองข้อมูล, ACM, New York
  25. ^ SIGKDD Explorations , ACM, New York
  26. ^ Günnemannสเตฟาน; เครเมอร์, ฮาร์ดี้; ซีดล์, โทมัส (2011). "ส่วนขยายของมาตรฐาน PMML เป็นโมเดลการจัดกลุ่มพื้นที่ย่อย" การดำเนินการของการประชุมเชิงปฏิบัติการ 2011 เมื่อ Predictive มาร์กอัปภาษาการสร้างแบบจำลอง NS. 48. ดอย : 10.1145/2023598.2023605 . ISBN 978-1-4503-0837-3. S2CID  14967969 .
  27. ^ โซดาวิลเลียม (2005) "สัญญาและผิดพลาดของการทำเหมืองข้อมูล: ปัญหาผลประโยชน์ทับซ้อน" (PDF) ASA มาตรารัฐบาลสถิติ สมาคมสถิติอเมริกัน
  28. ^ พิตต์ ชิป (15 มีนาคม 2550) "จุดจบของการสอดแนมในประเทศอย่างผิดกฎหมาย อย่าวางใจ" . ผู้ชมวอชิงตัน . เก็บถาวรจากต้นฉบับเมื่อ 2007-11-28
  29. ^ Taipale, Kim A. (15 ธันวาคม 2546). "การขุดข้อมูลและความปลอดภัยภายในประเทศ: การเชื่อมต่อจุดต่างๆ เพื่อให้เข้าใจข้อมูล" . โคลัมเบียวิทยาศาสตร์และทบทวนกฎหมายเทคโนโลยี 5 (2). OCLC 45263753 . SSRN 546782 .  
  30. ^ รี ซิก, จอห์น. "กรอบสำหรับการก่อสร้าง Instant Messaging บริการ" (PDF) สืบค้นเมื่อ16 มีนาคม 2018 .
  31. ^ a b c Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine , NASCIO Research Brief, กันยายน 2547
  32. ^ โอห์ม, พอล. "อย่าสร้างฐานข้อมูลของทำลาย" รีวิวธุรกิจฮาร์วาร์ด .
  33. ^ ดาร์วิน บอนด์-เกรแฮม, Iron Cagebook – The Logical End of Facebook's Patents , Counterpunch.org , 2013.12.03
  34. ^ ดาร์วิน บอนด์-เกรแฮม, Inside the Tech Industry's Startup Conference , Counterpunch.org , 2013.09.11
  35. ^ ข้อมูลการค้นหา AOL ระบุบุคคล , SecurityFocus, สิงหาคม 2549
  36. ^ Kshetri, Nir (2014). "ข้อมูลขนาดใหญ่ของผลกระทบต่อความเป็นส่วนตัวของการรักษาความปลอดภัยและสวัสดิภาพของผู้บริโภค" (PDF) นโยบายโทรคมนาคม . 38 (11): 1134–1145. ดอย : 10.1016/j.telpol.2014.10.002 .
  37. ^ ไวสส์มาร์ติ .; อาร์ชิค, คริสติน (19 พฤษภาคม 2559). "สหรัฐฯสหภาพยุโรปเป็นส่วนตัวของข้อมูล: จาก Safe Harbor ความเป็นส่วนตัวโล่" (PDF) บริการวิจัยรัฐสภาวอชิงตัน ดี.ซี. NS. 6. R44257 . สืบค้นเมื่อ9 เมษายน 2020 . เมื่อวันที่ 6 ตุลาคม 2015 CJEU  ... ได้ออกคำตัดสินที่ทำให้ Safe Harbor เป็นโมฆะ (มีผลทันที) ตามที่ดำเนินการอยู่ในปัจจุบัน
  38. ^ ปาร์คเกอร์, จอร์จ. “บริษัทในสหราชอาณาจักรตั้งเป้าที่จะใช้ Big Data เพื่อเอารัดเอาเปรียบลูกค้า” Subscribe to Read | Financial Times, Financial Times, 30 กันยายน 2018, www.ft.com/content/5dbd98ca-c491-11e8-bc21-54264d1c4647
  39. ^ บรรณาธิการสัปดาห์ธุรกิจเทคโนโลยีชีวภาพ (30 มิถุนายน 2551); ชีวการแพทย์; กฎความเป็นส่วนตัวของ HIPAA ขัดขวางการวิจัยชีวการแพทย์ , Biotech Business Week ดึงข้อมูลเมื่อ 17 พฤศจิกายน 2552 จาก LexisNexis Academic
  40. ^ นักวิจัยของสหราชอาณาจักรได้รับสิทธิ์ในการขุดข้อมูลภายใต้กฎหมายลิขสิทธิ์ใหม่ของสหราชอาณาจักร เก็บถาวร 9 มิถุนายน 2014 ที่ Wayback Machine Out-Law.com สืบค้นเมื่อ 14 พฤศจิกายน 2014
  41. ^ "ใบอนุญาตสำหรับยุโรป - โครงสร้างผู้มีส่วนได้ส่วนเสีย Dialogue 2013" คณะกรรมาธิการยุโรป. สืบค้นเมื่อ14 พฤศจิกายน 2557 .
  42. ^ "ข้อความและการทำเหมืองข้อมูล: ความสำคัญและความจำเป็นในการเปลี่ยนแปลงในยุโรป" สมาคมห้องสมุดวิจัยแห่งยุโรป. สืบค้นเมื่อ14 พฤศจิกายน 2557 .
  43. ^ "ผู้พิพากษาอนุญาตให้สรุปคดีในความโปรดปรานของ Google หนังสือ - ชัยชนะยุติธรรมใช้" lexology.com . อันโตเนลลี่กฎหมาย จำกัด สืบค้นเมื่อ14 พฤศจิกายน 2557 .

อ่านเพิ่มเติม

  • คาเบน่า, ปีเตอร์; Hadjnian, ปาโบล; สตาดเลอร์, รอล์ฟ; Verhees, Jaap; ซานาซี, อเลสซานโดร (1997); การค้นพบการขุดข้อมูล: จากแนวคิดสู่การนำไปใช้ , Prentice Hall , ISBN 0-13-743980-6 
  • MS Chen, J. Han, PS Yu (1996) " การทำเหมืองข้อมูล: ภาพรวมจากมุมมองของฐานข้อมูล " วิศวกรรมความรู้และข้อมูล, ธุรกรรม IEEEบน 8 (6), 866–883
  • เฟลด์แมน, โรเนน; แซงเจอร์, เจมส์ (2007); คู่มือการทำเหมืองข้อความ , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ , ISBN 978-0-521-83657-9 
  • กัว ยี่เก; และกรอสแมน โรเบิร์ต (บรรณาธิการ) (1999); การทำเหมืองข้อมูลประสิทธิภาพสูง: อัลกอริธึมการปรับขนาด แอปพลิเคชันและระบบ , Kluwer Academic Publishers
  • Han, Jiawei , Micheline Kamber และ Jian Pei การทำเหมืองข้อมูล: แนวคิดและเทคนิค มอร์แกน คอฟมันน์, 2549.
  • Hastie, Trevor , Tibshirani, RobertและFriedman, Jerome (2001); องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูล การอนุมาน และการทำนาย , Springer, ISBN 0-387-95284-5 
  • หลิว, ปิง (2007, 2011); การขุดข้อมูลเว็บ: การสำรวจไฮเปอร์ลิงก์เนื้อหา และข้อมูลการใช้งาน , Springer , ISBN 3-540-37881-2 
  • เมอร์ฟี่, คริส (16 พฤษภาคม 2554). "การทำเหมืองข้อมูลเป็นคำพูดฟรีหรือไม่" ข้อมูลสัปดาห์ : 12.
  • นิสเบท, โรเบิร์ต; พี่จอห์น; คนขุดแร่, แกรี่ (2009); คู่มือการวิเคราะห์ทางสถิติและการประยุกต์ใช้การทำเหมืองข้อมูล , Academic Press /Elsevier, ISBN 978-0-12-374765-5 
  • พอนเซเล็ต, ปาสกาล; Masseglia, ฟลอเรนซ์; และ Teisseire, Maguelonne (บรรณาธิการ) (ตุลาคม 2550); "รูปแบบการทำเหมืองข้อมูล: วิธีการและการประยุกต์ใช้ใหม่", ข้อมูลอ้างอิงด้านสารสนเทศศาสตร์ , ISBN 978-1-59904-162-9 
  • ตัน ปางหนิง; สไตน์บาค, ไมเคิล; และ Kumar, Vipin (2005); ข้อมูลเบื้องต้นเกี่ยวกับการทำเหมืองข้อมูล , ISBN 0-321-32136-7 
  • Theodoridis, Sergios; และ Koutroumbas, Konstantinos (2009); Pattern Recognitionครั้งที่ 4 สำนักพิมพ์วิชาการISBN 978-1-59749-272-0 
  • ไวส์, โชลมเอ็ม.; และ Indurkhya, Nitin (1998); การทำเหมืองข้อมูลเชิงทำนาย , Morgan Kaufmann
  • วิทเทน, เอียน เอช ; แฟรงค์, Eibe; Hall, Mark A. (30 มกราคม 2554). การทำเหมืองข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องจักรเชิงปฏิบัติ (ฉบับที่ 3) เอลส์เวียร์. ISBN 978-0-12-374856-0.(ดูเพิ่มเติมซอฟต์แวร์ Weka ฟรี )
  • เย่ น้อง (2546); คู่มือการทำเหมืองข้อมูล , Mahwah, NJ: Lawrence Erlbaum

ลิงค์ภายนอก