วิกิพีเดีย:วิกิพีเดียการทำเหมืองข้อมูล

  • WP:ดาตามีน

เนื้อหาแบบเปิดที่รวบรวมจากมวลชน ของวิกิพีเดียสามารถขุดข้อมูลได้

จากบทความ สามารถ ดึง ข้อมูลการดูหน้า เว็บ การประเมิน โครงการWiki กล่องข้อมูล เมตาดาต้าต่างๆ(เช่น การแก้ไขหน้า) และ ข้อมูล การจัดหมวด หมู่ที่สามารถนำไปใช้ในการวิเคราะห์ สถิติ และการสร้างข้อมูลเชิงลึกใหม่ๆ โดยทั่วไปได้

การประมวลผลภาษาธรรมชาติอาจใช้เพื่อประมวลผลเนื้อหาบทความ หน้านี้ไม่ได้เกี่ยวกับการใช้การขุดข้อมูลโดยมีจุดประสงค์เพื่อปรับปรุงวิกิพีเดีย

ประเภท

การทำเหมืองข้อมูลเกี่ยวข้องกับงานทั่วไปหกประเภท: [1]

  • การตรวจจับความผิดปกติ (การตรวจจับค่าผิดปกติ/การเปลี่ยนแปลง/ความเบี่ยงเบน) – การระบุบันทึกข้อมูลที่ผิดปกติซึ่งอาจน่าสนใจหรือข้อผิดพลาดของข้อมูลที่ต้องมีการตรวจสอบเพิ่มเติม
  • การเรียนรู้กฎการเชื่อมโยง (การสร้างแบบจำลองการพึ่งพา) – ค้นหาความสัมพันธ์ระหว่างตัวแปร ตัวอย่างเช่น ซูเปอร์มาร์เก็ตอาจรวบรวมข้อมูลเกี่ยวกับพฤติกรรมการซื้อของลูกค้า ซูเปอร์มาร์เก็ตสามารถระบุได้ว่าผลิตภัณฑ์ใดที่ซื้อร่วมกันบ่อย ๆ และใช้ข้อมูลนี้เพื่อวัตถุประสงค์ทางการตลาดโดยใช้การเรียนรู้กฎการเชื่อมโยง บางครั้งเรียกว่าการวิเคราะห์ตะกร้าตลาด
  • การจัดกลุ่ม - เป็นงานในการค้นหากลุ่มและโครงสร้างในข้อมูลที่มี "คล้ายกัน" ไม่ทางใดก็ทางหนึ่ง โดยไม่ต้องใช้โครงสร้างที่รู้จักในข้อมูล
    • เป้าหมายของโครงการขุดข้อมูล Wikipedia คือการค้นหารูปแบบภายในชุดข้อมูล Wikipedia และสำรวจอัลกอริธึมการขุดข้อมูลต่างๆ อัลกอริทึมของคลัสเตอร์สามารถจัดกลุ่มบทความ Wikipedia ตามความคล้ายคลึงกัน และสร้างออบเจ็กต์ข้อมูลหลายพันรายการเป็นแผนผังที่จัดระเบียบเพื่อช่วยให้ผู้คนดูเนื้อหาได้ [2]
  • การจำแนกประเภท - เป็นงานในการสรุปโครงสร้างที่ทราบเพื่อนำไปใช้กับข้อมูลใหม่ ตัวอย่างเช่น โปรแกรมอีเมลอาจพยายามจัดประเภทอีเมลว่า "ถูกกฎหมาย" หรือ "สแปม"
  • การถดถอย – พยายามค้นหาฟังก์ชันที่สร้างแบบจำลองข้อมูลโดยมีข้อผิดพลาดน้อยที่สุด
  • การสรุป – ให้การแสดงชุดข้อมูลที่มีขนาดกะทัดรัดยิ่งขึ้น รวมถึงการแสดงภาพและการสร้างรายงาน

ตัวอย่าง

  • Watsonเป็น ระบบคอมพิวเตอร์ ตอบคำถาม (QA) ที่ IBM สร้างขึ้นเพื่อใช้การประมวลผลภาษาธรรมชาติ ขั้นสูง การ ดึงข้อมูลการแสดงความรู้การใช้เหตุผลอัตโนมัติและ เทคโนโลยี การเรียนรู้ของเครื่องจักรในด้านการตอบคำถามโดเมนแบบเปิด[3]และยังได้ใช้ประโยชน์จาก/ ประมวลผลข้อความทั้งหมดของวิกิพีเดีย [4]
  • ในปี 2014 Pantheon เป็นโครงการที่พัฒนาโดยกลุ่ม Macro Connections ที่ MIT Media Lab ซึ่งรวบรวม วิเคราะห์ และแสดงภาพข้อมูลเกี่ยวกับความนิยมและการผลิตทางวัฒนธรรมในอดีต ข้อมูลที่ใช้สร้าง Pantheon 1.0 คือชีวประวัติของวิกิพีเดีย 11,341 ฉบับที่มีอยู่ในมากกว่า 25 ภาษาในเดือนพฤษภาคม พ.ศ. 2556 โดยเฉพาะอย่างยิ่ง จำนวนฉบับภาษาวิกิพีเดียต่างๆ ที่มีบทความเกี่ยวกับลักษณะทางประวัติศาสตร์และการดูหน้าเว็บถูกนำมาใช้ [5] [6] [7] [8]
  • ในเดือนพฤศจิกายน 2015 Jose Lages จากมหาวิทยาลัย Franche-Comté ในฝรั่งเศสและเพื่อนสองสามคนใช้วิธีกล่าวถึงมหาวิทยาลัยใน Wikipedia [ ต้องการคำชี้แจง ]ด้วย อัลกอริธึม PageRank , 2DRank และCheiRankเพื่อสร้างการจัดอันดับโลกของมหาวิทยาลัยที่มีอิทธิพลมากที่สุด [9] [10]
  • Kylin เป็นระบบที่ดึงข้อมูลจากวิกิพีเดียโดยใช้กล่องข้อมูลเพื่อสร้างข้อมูลการฝึกอบรมโดยอัตโนมัติสำหรับการเรียนรู้เครื่องมือแยกเฉพาะความสัมพันธ์[11]

ความช่วยเหลือและเครื่องมือ

  • มิลน์, เดวิด; วิตเทน, เอียน เอช. (1 มกราคม 2013) "ชุดเครื่องมือโอเพ่นซอร์สสำหรับการขุด Wikipedia" (PDF ) ปัญญาประดิษฐ์ . 194 : 222–239. ดอย :10.1016/j.artint.2012.06.007.
  • การขุด Wikipedia เพื่อข้อมูลที่ยอดเยี่ยม การนำเสนอ
  • API ของวิกิพีเดีย

ข้อพิจารณาทางกฎหมาย

วิกิพีเดียและโครงการในเครือ เช่นวิกิมีเดียคอม มอนส์ วิกิซอร์ซ ซึ่งสนับสนุนโดยมูลนิธิวิกิมีเดียนั้นโฮสต์โดยเซิร์ฟเวอร์ (ดูเซิร์ฟเวอร์วิกิมีเดียบนเมตา-วิกิ) ที่ศูนย์ข้อมูลในรัฐเวอร์จิเนียโดยมีศูนย์ข้อมูลสำรองฉุกเฉินในรัฐเท็กซัส ; เซิร์ฟเวอร์แคชตั้งอยู่ในเนเธอร์แลนด์และสิงคโปร์ มูลนิธิวิกิมีเดียเป็นองค์กรไม่แสวงผลกำไรที่จัดตั้งขึ้นในฟลอริดาและตั้งอยู่ในแคลิฟอร์เนีย เงื่อนไขการให้บริการสำหรับเว็บไซต์มูลนิธิวิกิมีเดียทั้งหมดอยู่ภายใต้กฎหมายของรัฐแคลิฟอร์เนียและกฎหมายของรัฐบาลกลางสหรัฐอเมริกา

จากภายในสหรัฐอเมริกา

การทำเหมืองข้อมูลบนวิกิพีเดียที่ดำเนินการจากภายในสหรัฐอเมริกามีข้อยกเว้นหนึ่งประการ ไม่น่าจะผิดกฎหมายหรือละเมิดสิทธิ์ของผู้อื่น เนื่องจากข้อมูล (ข้อความของหน้า การแก้ไขที่ผ่านมา ที่อยู่ IP) นั้นเป็นข้อมูลสาธารณะ (ดังนั้นการขุดค้นข้อมูล มีแนวโน้มว่าจะไม่ฝ่าฝืนกฎหมายความเป็นส่วนตัวในสหรัฐอเมริกา ) และอย่างน้อยเมื่อทำการขุดบนวิกิพีเดีย มีแนวโน้มที่จะได้รับการพิจารณาว่าเป็นการใช้เนื้อหาที่มีลิขสิทธิ์โดยชอบธรรมซึ่งไม่ละเมิดสิทธิ์ของผู้ถือลิขสิทธิ์ (โดยทั่วไปคือผู้ที่เพิ่ม เนื้อหาบนเว็บไซต์) นอกจากนี้ กฎหมายความเป็นส่วนตัวในสหรัฐอเมริกาโดยทั่วไปไม่ได้ปกป้องข้อมูลที่ไม่มีความคาดหวังที่สมเหตุสมผลในเรื่องความเป็นส่วนตัว เนื่องจากผู้มีส่วนร่วมทั้งหมด รวมถึงการมีส่วนร่วมจากที่อยู่ IP ที่ไม่ได้สร้างบัญชี ยอมรับข้อกำหนดในการให้บริการ และจะปล่อยการสนับสนุนอย่างถาวรภายใต้ใบอนุญาต CC BY-SA 3.0 & GFDL และบรรณาธิการที่ไม่ระบุชื่อตกลงว่าที่อยู่ IP ของพวกเขาจะถูกบันทึกไว้ ไม่น่าเป็นไปได้ที่ผู้มีส่วนร่วมจะสามารถเรียกร้องความคาดหวังที่สมเหตุสมผลในเรื่องความเป็นส่วนตัวได้

ปัญหาของเขตอำนาจศาลบนอินเทอร์เน็ตไม่ได้รับการตัดสินอย่างดีในศาล ดังนั้นนักขุดข้อมูลอาจอยู่ภายใต้เขตอำนาจศาลของแคลิฟอร์เนีย (ขึ้นอยู่กับเงื่อนไขการให้บริการ โดยเฉพาะอย่างยิ่งในข้อพิพาทใด ๆ กับมูลนิธิ Wikimedia) หรือสถานที่ตั้ง ของเซิร์ฟเวอร์ที่เข้าถึงเพื่อการขุดข้อมูล ข้อยกเว้นคือการขุดข้อมูลจากสหรัฐอเมริกาบนเซิร์ฟเวอร์ Wikimedia Foundation ในเนเธอร์แลนด์หรือสิงคโปร์ ซึ่งในกรณีนี้ผู้เสียหายสามารถเรียกร้องการคุ้มครองภายใต้กฎหมายของประเทศใดประเทศหนึ่งได้ เนื่องจากเซิร์ฟเวอร์ Wikimedia ในเนเธอร์แลนด์และสิงคโปร์มีไว้สำหรับแคช ปัญหานี้สามารถหลีกเลี่ยงได้โดยการขุดจากเซิร์ฟเวอร์ Wikimedia ในสหรัฐอเมริกาเท่านั้น

จากนอกสหรัฐอเมริกา

การทำ เหมืองข้อมูลจากนอกสหรัฐอเมริกาอาจละเมิดกฎหมายท้องถิ่นหรือละเมิดสิทธิ์ของผู้อื่น (ซึ่งอาจส่งผลให้เกิดการฟ้องร้องที่มีค่าใช้จ่ายสูงหากค้นพบ) ข้อพิจารณาหลักคือกฎหมายความเป็นส่วนตัว ซึ่งควรพิจารณาเมื่อมีการรวบรวมข้อมูลส่วนบุคคลประเภทใดก็ตาม (ชื่อผู้ใช้และที่อยู่ IP) เมื่อทำการขุด ในสหภาพยุโรปกฎการคุ้มครองข้อมูลทั่วไป (ข้อความ) ควบคุมลักษณะการประมวลผลข้อมูลส่วนบุคคลอย่างเคร่งครัด โดยกำหนด 'ข้อมูลส่วนบุคคล' เป็น:

"ข้อมูลใดๆ ที่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุตัวตนหรือระบุตัวตนได้ บุคคลธรรมดาที่ระบุตัวบุคคลได้คือบุคคลที่สามารถระบุตัวตนได้ไม่ว่าทางตรงหรือทางอ้อม โดยเฉพาะอย่างยิ่งโดยการอ้างอิงถึงตัวระบุ เช่น ชื่อ หมายเลขประจำตัว ข้อมูลสถานที่ ตัวระบุออนไลน์ หรือ ปัจจัยหนึ่งหรือหลายปัจจัยที่จำเพาะต่ออัตลักษณ์ทางกายภาพ สรีรวิทยา พันธุกรรม จิตใจ เศรษฐกิจ วัฒนธรรม หรือสังคมของบุคคลธรรมดานั้น” (ข้อ IV, §1)

ดูเหมือนว่าจะรวมถึงการขุดข้อมูลทุกประเภทที่โปรไฟล์แก้ไขตามที่อยู่ IP อย่างไรก็ตาม มีข้อยกเว้นที่สำคัญสำหรับกฎระเบียบ GDPR ที่พบในมาตรา 85 ซึ่งพูดว่า:

(1) " กฎหมายให้รัฐสมาชิกประนีประนอมสิทธิในการคุ้มครองข้อมูลส่วนบุคคลตามระเบียบนี้กับสิทธิที่จะมีเสรีภาพในการแสดงออกและข้อมูลรวมถึงการประมวลผลเพื่อวัตถุประสงค์ด้านนักข่าวและวัตถุประสงค์ในการแสดงออกทางวิชาการ ศิลปะ หรือวรรณกรรม "
(2) "สำหรับการประมวลผลที่ดำเนินการเพื่อวัตถุประสงค์ด้านข่าวหรือวัตถุประสงค์ของการแสดงออกทางศิลปะหรือวรรณกรรมทางวิชาการ ประเทศสมาชิกจะต้องจัดให้มีการยกเว้นหรือการเสื่อมเสียจากบทที่ II (หลักการ) บทที่ III (สิทธิของเจ้าของข้อมูล) บทที่ IV (ผู้ควบคุม และผู้ประมวลผล), บทที่ V (การถ่ายโอนข้อมูลส่วนบุคคลไปยังประเทศที่สามหรือองค์กรระหว่างประเทศ), บทที่ VI (หน่วยงานกำกับดูแลอิสระ), บทที่ VII (ความร่วมมือและความสม่ำเสมอ) และบทที่ IX (สถานการณ์การประมวลผลข้อมูลเฉพาะ) หากจำเป็นต้องกระทบยอด สิทธิในการคุ้มครองข้อมูลส่วนบุคคลด้วยเสรีภาพในการแสดงออกและข้อมูล”
(3) "รัฐสมาชิกแต่ละประเทศจะต้องแจ้งให้คณะกรรมาธิการทราบถึงบทบัญญัติของกฎหมายของตนซึ่งตนได้นำมาใช้ตามวรรค 2 และกฎหมายที่มีการแก้ไขเพิ่มเติมใดๆ ในภายหลังหรือการแก้ไขที่มีผลกระทบต่อรัฐเหล่านั้นโดยไม่ชักช้า"

สถานะทางกฎหมายของมาตรา 85 ของ GDPR คือกำหนดให้รัฐสมาชิกต้องตรากฎหมายบางประการในเรื่องนี้ อย่างไรก็ตาม น่าเสียดายที่บรรณาธิการที่เพิ่มเนื้อหานี้ในส่วนนี้ในเดือนพฤษภาคม 2018 ไม่พบคำแนะนำใดๆ เกี่ยวกับวิธีการที่ประเทศสมาชิกบังคับใช้ข้อกำหนดนี้ในกฎหมายของประเทศของตน

ดูสิ่งนี้ด้วย

อ้างอิง

  1. เฟย์ยัด, อุซามะห์ ; เพียเตตสกี้-ชาปิโร, เกรกอรี ; สมิต, ปาธราอิก (1996) “จาก Data Mining สู่การค้นพบองค์ความรู้ในฐานข้อมูล” (PDF ) สืบค้นเมื่อ 17 ธันวาคม 2551 .
  2. "โครงการขุดข้อมูลวิกิพีเดีย". mines.humanเน้น. com สืบค้นเมื่อ 28 มกราคม 2560 .
  3. "โครงการ DeepQA: คำถามที่พบบ่อย" ไอบีเอ็ม. สืบค้นเมื่อ 11 กุมภาพันธ์ 2554 .
  4. ซิมเมอร์, เบน (17 กุมภาพันธ์ พ.ศ. 2554). "ถึงเวลาต้อนรับโอเวอร์ลอร์ดคอมพิวเตอร์คนใหม่ของเราแล้วหรือยัง?" มหาสมุทรแอตแลนติก สืบค้นเมื่อ 17 กุมภาพันธ์ 2554 .
  5. "แพนธีออน". แพนธีออน. สืบค้นเมื่อ 29 มกราคม 2560 .
  6. หยู เอมี จ้าว; โรเนน, ชาฮาร์; หูเควิน; ลู, ทิฟฟานี่; อีดัลโก, César A. (5 มกราคม 2559). "Pantheon 1.0 ชุดข้อมูลที่ตรวจสอบด้วยตนเองของชีวประวัติที่มีชื่อเสียงระดับโลก" ข้อมูลทางวิทยาศาสตร์ . 3 : 150075. Bibcode :2016NatSD...350075Y. ดอย :10.1038/sdata.2015.75. PMC 4700860 . PMID26731133  . 
  7. การ์เนอร์, ดไวต์ (14 มีนาคม พ.ศ. 2557) “ใครมีชื่อเสียงมากกว่าพระเยซู?” เดอะนิวยอร์กไทมส์. สืบค้นเมื่อ 29 มกราคม 2560 .
  8. อัลมอสซาวี, ซีซาร์ เอ. อีดัลโก,อาลี "การปฏิวัติการแสดงข้อมูลและการแสดงภาพ" วิทยาศาสตร์อเมริกัน. สืบค้นเมื่อ 29 มกราคม 2560 .{{cite web}}: CS1 maint: หลายชื่อ: รายชื่อผู้แต่ง ( ลิงก์ )
  9. ลาเจส, โฮเซ่; แพต, แอนทอน; Shepelyansky, Dima L. (1 มีนาคม 2559) "วิกิพีเดียอันดับมหาวิทยาลัยโลก" วารสารทางกายภาพแห่งยุโรป B. 89 (3): 69. arXiv : 1511.09021 . Bibcode :2016EPJB...89...69L. ดอย :10.1140/epjb/e2016-60922-0. ISSN  1434-6028. S2CID  254115078 . สืบค้นเมื่อ 28 มกราคม 2560 .
  10. "อัลกอริธึมการขุดวิกิพีเดียเผยมหาวิทยาลัยที่ทรงอิทธิพลที่สุดในโลก" การ ทบทวนเทคโนโลยีของ MIT สืบค้นเมื่อ 28 มกราคม 2560 .
  11. โมเอนส์, มารี-ฟรานซีน; หลี่, ฮวนซี; ชวน, ทัดเส็ง (28 มกราคม 2557). การขุดเนื้อหาที่ผู้ใช้สร้างขึ้น ซีอาร์ซี เพรส. ไอเอสบีเอ็น 9781466557406. สืบค้นเมื่อ 28 มกราคม 2560 .

ลิงค์ภายนอก

  • ภะคะวะตุลา, จันทรา เสขร; นรเศรษฐ์, ธนพล; ดาวนีย์, ดั๊ก (1 มกราคม 2013) "วิธีการสำรวจและขุดตารางบนวิกิพีเดีย" การดำเนินการของการประชุมเชิงปฏิบัติการ ACM SIGKDD เรื่องการสำรวจข้อมูลเชิงโต้ตอบและการวิเคราะห์ พลอากาศเอก: 18–26 ดอย :10.1145/2501511.2501516. ไอเอสบีเอ็น 9781450323291. S2CID  8780828.
  • ข้อมูลขนาดใหญ่และการวิจัยวิกิพีเดีย: ความรู้ทางสังคมศาสตร์ข้ามการแบ่งแยกทางวินัย
  • หมายเหตุวิกิพีเดียการทำเหมืองข้อมูล
  • Data Mining Wikipedia การนำเสนอทางเว็บ
  • การขุดข้อมูล Wikipedia เพื่อติดตามโรค
  • ชิว, เฉียง; จาง, หยาง; จู้, จุนผิง; คู, เหว่ย (17 สิงหาคม 2552) "การสร้างตัวแยกประเภทข้อความด้วยคำหลักและความรู้วิกิพีเดีย" การทำเหมืองข้อมูลและแอปพลิเคชันขั้นสูง บันทึกการบรรยายทางวิทยาการคอมพิวเตอร์ สปริงเกอร์ เบอร์ลิน ไฮเดลเบิร์ก 5678 : 277–287. ดอย :10.1007/978-3-642-03348-3_28. ไอเอสบีเอ็น 978-3-642-03347-6.
  • อันตรายที่ไม่รู้จักจากการขุด Wikipedia
  • การแปลงวิกิพีเดียเป็นข้อมูลการฝึกอบรมเอนทิตีที่มีชื่อ
  • Wikipedia Mining เผยการปฏิวัติลำดับความสำคัญของมนุษย์ที่ซ่อนอยู่

อ่านเพิ่มเติม

  • โมเอนส์, มารี-ฟรานซีน; หลี่, ฮวนซี; ชวน, ทัดเส็ง (28 มกราคม 2557). การขุดเนื้อหาที่ผู้ใช้สร้างขึ้น ซีอาร์ซี เพรส. ไอเอสบีเอ็น 9781466557406.
แปลจาก "https://en.wikipedia.org/w/index.php?title=Wikipedia:Data_mining_Wikipedia&oldid=1138129394"