ขูดเว็บ

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

การ ขูด เว็บ การเก็บเกี่ยว เว็บ หรือการดึงข้อมูลเว็บเป็นการขูดข้อมูลที่ใช้สำหรับการดึงข้อมูลจากเว็บไซต์ ซอฟต์แวร์ขูดเว็บอาจเข้าถึงเวิลด์ไวด์เว็บ ได้โดยตรง โดยใช้Hypertext Transfer Protocolหรือเว็บเบราว์เซอร์ แม้ว่าการขูดเว็บสามารถทำได้ด้วยตนเองโดยผู้ใช้ซอฟต์แวร์ คำนี้โดยทั่วไปหมายถึงกระบวนการอัตโนมัติที่ดำเนินการโดยใช้บอทหรือโปรแกรมรวบรวมข้อมูลเว็บ เป็นรูปแบบหนึ่งของการคัดลอกซึ่งข้อมูลเฉพาะจะถูกรวบรวมและคัดลอกจากเว็บ ซึ่งโดยทั่วไปแล้วจะลงในฐานข้อมูลหรือสเปรดชีตส่วนกลางส่วนกลาง เพื่อเรียกค้น ในภายหลัง หรือการ วิเคราะห์

การขูดหน้าเว็บเกี่ยวข้องกับการดึงข้อมูลและดึงข้อมูลออกจากหน้าเว็บ การดึงข้อมูลคือการดาวน์โหลดหน้าเว็บ (ซึ่งเบราว์เซอร์จะทำเมื่อผู้ใช้ดูหน้าเว็บ) ดังนั้น การรวบรวมข้อมูลเว็บจึงเป็นองค์ประกอบหลักของการดึงข้อมูลหน้าเว็บเพื่อดำเนินการในภายหลัง เมื่อดึงออกมาแล้ว การสกัดจะเกิดขึ้นได้ เนื้อหาของหน้าอาจถูกแยกวิเคราะห์ค้นหาและจัดรูปแบบใหม่ และคัดลอกข้อมูลลงในสเปรดชีตหรือโหลดลงในฐานข้อมูล เว็บแครปเปอร์มักจะนำบางสิ่งออกจากหน้าเพื่อนำไปใช้เพื่อวัตถุประสงค์อื่นที่อื่น ตัวอย่างจะเป็นการค้นหาและคัดลอกชื่อและหมายเลขโทรศัพท์ บริษัท และ URL หรือที่อยู่อีเมลไปยังรายการ (การขูดผู้ติดต่อ)

เช่นเดียวกับการขูดผู้ติดต่อ การขูดเว็บถูกใช้เป็นส่วนประกอบของแอปพลิเคชันที่ใช้สำหรับการจัดทำดัชนีเว็บ การขุดเว็บและการทำเหมืองข้อมูลการตรวจสอบการเปลี่ยนแปลงราคาออนไลน์และการเปรียบเทียบราคา การขูดการตรวจสอบผลิตภัณฑ์ (เพื่อดูการแข่งขัน) การรวบรวมรายการอสังหาริมทรัพย์ สภาพอากาศ การตรวจสอบข้อมูล การตรวจจับการเปลี่ยนแปลงเว็บไซต์ การวิจัย การติดตามสถานะและชื่อเสียงออนไลน์ การรวมเว็บและการรวมข้อมูลเว็บ

หน้าเว็บสร้างขึ้นโดยใช้ภาษามาร์กอัปแบบข้อความ ( HTMLและXHTML ) และมักมีข้อมูลที่เป็นประโยชน์มากมายในรูปแบบข้อความ อย่างไรก็ตาม หน้าเว็บส่วนใหญ่ได้รับการออกแบบมาสำหรับผู้ใช้ที่ เป็นมนุษย์ ไม่ใช่เพื่อความสะดวกในการใช้งานแบบอัตโนมัติ ด้วยเหตุนี้ เครื่องมือและซอฟต์แวร์เฉพาะทางจึงได้รับการพัฒนาขึ้นเพื่ออำนวยความสะดวกในการขูดหน้าเว็บ

รูปแบบการขูดเว็บที่ใหม่กว่านั้นเกี่ยวข้องกับการตรวจสอบฟีดข้อมูลจากเว็บเซิร์ฟเวอร์ ตัวอย่างเช่นJSONมักใช้เป็นกลไกการจัดเก็บข้อมูลการขนส่งระหว่างไคลเอ็นต์และเว็บเซิร์ฟเวอร์

มีวิธีการที่บางเว็บไซต์ใช้เพื่อป้องกันการขูดเว็บ เช่น การตรวจหาและไม่อนุญาตให้บอทรวบรวมข้อมูล (ดู) หน้าเว็บของตน ในการตอบสนอง มีระบบการขูดเว็บที่อาศัยการใช้เทคนิคในการ แยกวิเคราะห์ DOM , คอมพิวเตอร์วิทัศน์และการประมวลผลภาษาธรรมชาติเพื่อจำลองการเรียกดูโดยมนุษย์ เพื่อให้สามารถรวบรวมเนื้อหาหน้าเว็บสำหรับการแยกวิเคราะห์แบบออฟไลน์ได้

ประวัติ

ประวัติความเป็นมาของการขูดเว็บเกิดขึ้นเกือบถึงเวลาที่เวิลด์ไวด์เว็บถือกำเนิดขึ้น

  • หลังจากการกำเนิดของเวิลด์ไวด์เว็บในปี 1989 หุ่นยนต์เว็บตัวแรก[1] World Wide Web Wandererถูกสร้างขึ้นในเดือนมิถุนายน 1993 ซึ่งมีวัตถุประสงค์เพื่อวัดขนาดของเว็บเท่านั้น
  • ในเดือนธันวาคม พ.ศ. 2536 ได้มีการ เปิดตัวโปรแกรมค้นหาเว็บที่ใช้โปรแกรมรวบรวมข้อมูลเครื่องแรกJumpStation เนื่องจากมีเว็บไซต์น้อยกว่าบนเว็บ เครื่องมือค้นหาในขณะนั้นจึงเคยอาศัยผู้ดูแลระบบที่เป็นมนุษย์เพื่อรวบรวมและจัดรูปแบบลิงก์ ในการเปรียบเทียบ JumpStation เป็นเสิร์ชเอ็นจิ้น WWW ตัวแรกที่ใช้เว็บโรบ็อต
  • ในปี 2000 มีการสร้างWeb API และโปรแกรมรวบรวมข้อมูล APIตัวแรก API ( Application Programming Interface)เป็นส่วนต่อประสานที่ทำให้การพัฒนาโปรแกรมง่ายขึ้นมากโดยการจัดหาหน่วยการสร้าง ในปี 2000 SalesforceและeBayได้เปิดตัว API ของตนเอง โดยที่โปรแกรมเมอร์สามารถเข้าถึงและดาวน์โหลดข้อมูลบางส่วนที่เปิดเผยต่อสาธารณะได้ ตั้งแต่นั้นมา เว็บไซต์หลายแห่งก็เสนอ Web API ให้ผู้คนเข้าถึงฐานข้อมูลสาธารณะของตน

เทคนิค

การขูดเว็บเป็นกระบวนการขุดข้อมูลโดยอัตโนมัติหรือรวบรวมข้อมูลจากเวิลด์ไวด์เว็บ เป็นสาขาที่มีการพัฒนาเชิงรุกซึ่งมีเป้าหมายร่วมกันกับ วิสัยทัศน์ ทางเว็บเชิงความหมายซึ่งเป็นความคิดริเริ่มที่มีความทะเยอทะยานที่ยังคงต้องการความก้าวหน้าในการประมวลผลข้อความ ความเข้าใจในความหมาย ปัญญาประดิษฐ์ และปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์

มนุษย์คัดลอกและวาง

รูปแบบการขูดเว็บที่ง่ายที่สุดคือการคัดลอกและวางข้อมูลจากหน้าเว็บลงในไฟล์ข้อความหรือสเปรดชีตด้วยตนเอง บางครั้งแม้แต่เทคโนโลยีการขูดเว็บที่ดีที่สุดก็ไม่สามารถแทนที่การตรวจสอบด้วยตนเองของมนุษย์และการคัดลอกและวางได้ และบางครั้งนี่อาจเป็นวิธีแก้ปัญหาเดียวที่ใช้งานได้เมื่อเว็บไซต์สำหรับการขูดสร้างอุปสรรคอย่างชัดแจ้งเพื่อป้องกันไม่ให้เครื่องจักรทำงานอัตโนมัติ

การจับคู่รูปแบบข้อความ

แนวทางที่เรียบง่ายแต่ทรงพลังในการดึงข้อมูลจากหน้าเว็บอาจใช้คำสั่ง UNIX grepหรือ สิ่งอำนวยความสะดวกในการจับคู่ นิพจน์ทั่วไปของภาษาโปรแกรม (เช่นPerlหรือPython )

การเขียนโปรแกรม HTTP

สามารถเรียกหน้าเว็บแบบ ส แตติกและ ไดนามิกได้โดยการโพสต์คำขอ HTTP ไปยังเว็บเซิร์ฟเวอร์ระยะไกลโดยใช้ โปรแกรมซ็อกเก็

การแยกวิเคราะห์ HTML

เว็บไซต์จำนวนมากมีหน้าเว็บจำนวนมากที่สร้างขึ้นแบบไดนามิกจากแหล่งข้อมูลที่มีโครงสร้างพื้นฐาน เช่น ฐานข้อมูล ข้อมูลในหมวดหมู่เดียวกันมักจะถูกเข้ารหัสในหน้าที่คล้ายกันโดยสคริปต์หรือเทมเพลตทั่วไป ในการทำเหมืองข้อมูล โปรแกรมที่ตรวจจับเทมเพลตดังกล่าวในแหล่งข้อมูลเฉพาะ แยกเนื้อหาและแปลเป็นรูปแบบเชิงสัมพันธ์ เรียกว่าwrapper อัลกอริธึมการสร้าง Wrapper ถือว่าหน้าอินพุตของระบบการเหนี่ยวนำ wrapper สอดคล้องกับเทมเพลตทั่วไป และสามารถระบุได้ง่ายในแง่ของรูปแบบทั่วไปของ URL [2]นอกจากนี้ ภาษาคิวรี ข้อมูลกึ่งโครงสร้าง บาง ภาษา เช่นXQueryและ HTQL สามารถใช้เพื่อแยกวิเคราะห์หน้า HTML และดึงและแปลงเนื้อหาของหน้า

การแยกวิเคราะห์ DOM

ด้วยการฝังเว็บเบราว์เซอร์ที่มีคุณสมบัติครบถ้วน เช่นInternet Explorerหรือตัว ควบคุมเบราว์เซอร์ Mozillaโปรแกรมสามารถดึงเนื้อหาแบบไดนามิกที่สร้างโดยสคริปต์ฝั่งไคลเอ็นต์ การควบคุมเบราว์เซอร์เหล่านี้ยังแยกวิเคราะห์หน้าเว็บในแผนผัง DOM โดยขึ้นอยู่กับว่าโปรแกรมใดสามารถดึงข้อมูลส่วนต่างๆ ของหน้าได้ ภาษาต่างๆ เช่นXpathสามารถใช้เพื่อแยกวิเคราะห์แผนผัง DOM ที่ได้

การรวมแนวตั้ง

มีหลายบริษัทที่พัฒนาแพลตฟอร์มการเก็บเกี่ยวเฉพาะแนวตั้ง แพลตฟอร์มเหล่านี้สร้างและตรวจสอบ "บอท" จำนวนมากสำหรับประเภทธุรกิจเฉพาะโดยไม่มี "คนในวง" (ไม่มีส่วนเกี่ยวข้องโดยตรงกับมนุษย์) และไม่มีงานที่เกี่ยวข้องกับไซต์เป้าหมายเฉพาะ การเตรียมการเกี่ยวข้องกับการสร้างฐานความรู้สำหรับแนวดิ่งทั้งหมด จากนั้นแพลตฟอร์มจะสร้างบอทโดยอัตโนมัติ ความทนทานของแพลตฟอร์มวัดจากคุณภาพของข้อมูลที่ดึงมา (โดยปกติคือจำนวนฟิลด์) และความสามารถในการปรับขนาด (ความเร็วในการขยายได้ถึงหลายร้อยหรือหลายพันไซต์) ความสามารถในการปรับขนาดนี้ส่วนใหญ่จะใช้เพื่อกำหนดเป้าหมายไปยัง ไซต์ หางยาวที่ผู้รวบรวมทั่วไปพบว่าซับซ้อนหรือใช้แรงงานมากเกินกว่าจะเก็บเกี่ยวเนื้อหาได้

คำอธิบายประกอบความหมายที่รับรู้

หน้าที่ถูกคัดลอกอาจรวมข้อมูลเมตาหรือมาร์กอัปเชิงความหมายและคำอธิบายประกอบ ซึ่งสามารถใช้เพื่อระบุข้อมูลโค้ดเฉพาะ หากคำอธิบายประกอบถูกฝังอยู่ในหน้า เช่นเดียวกับMicroformatเทคนิคนี้จะถูกมองว่าเป็นกรณีพิเศษของการแยกวิเคราะห์ DOM ในอีกกรณีหนึ่ง คำอธิบายประกอบที่จัดเป็นชั้นความหมาย[3]จะถูกจัดเก็บและจัดการแยกจากหน้าเว็บ ดังนั้นเครื่องขูดจึงสามารถดึงข้อมูลสคีมาและคำแนะนำจากเลเยอร์นี้ก่อนที่จะทำการขูดหน้า

การวิเคราะห์หน้าเว็บด้วยคอมพิวเตอร์วิทัศน์

มีความพยายามในการใช้แมชชีนเลิ ร์นนิง และคอมพิวเตอร์วิทัศน์ที่พยายามระบุและดึงข้อมูลจากหน้าเว็บโดยตีความหน้าเว็บด้วยสายตาเหมือนมนุษย์ [4]

ซอฟต์แวร์

มีเครื่องมือซอฟต์แวร์มากมายที่สามารถใช้ปรับแต่งโซลูชันการขูดเว็บได้ ซอฟต์แวร์นี้อาจพยายามจดจำโครงสร้างข้อมูลของหน้าโดยอัตโนมัติหรือจัดเตรียมอินเทอร์เฟซการบันทึกที่ขจัดความจำเป็นในการเขียนโค้ดการขูดเว็บด้วยตนเอง หรือฟังก์ชันการเขียนสคริปต์บางอย่างที่สามารถใช้เพื่อแยกและแปลงเนื้อหา และอินเทอร์เฟซฐานข้อมูลที่สามารถจัดเก็บ ข้อมูลที่คัดลอกมาในฐานข้อมูลท้องถิ่น ซอฟต์แวร์ขูดเว็บบางตัวสามารถใช้เพื่อดึงข้อมูลจาก API ได้โดยตรง

ปัญหาทางกฎหมาย

ความถูกต้องตามกฎหมายของการขูดเว็บแตกต่างกันไปทั่วโลก โดยทั่วไป การคัดลอกเว็บอาจขัดต่อข้อกำหนดการใช้งานของบางเว็บไซต์ แต่การบังคับใช้ข้อกำหนดเหล่านี้ไม่ชัดเจน [5]

สหรัฐอเมริกา

ในสหรัฐอเมริกา เจ้าของเว็บไซต์สามารถใช้การเรียกร้องทางกฎหมาย ที่สำคัญสามข้อ เพื่อป้องกันการคัดลอกเว็บที่ไม่ต้องการ: (1) การละเมิดลิขสิทธิ์ (การรวบรวม) (2) การละเมิดพระราชบัญญัติการฉ้อโกงทางคอมพิวเตอร์และการละเมิด ("CFAA") และ (3) การบุกรุกเพื่อสนทนา [6]อย่างไรก็ตาม ประสิทธิผลของการเรียกร้องเหล่านี้ขึ้นอยู่กับการปฏิบัติตามเกณฑ์ต่างๆ และกฎหมายคดียังคงมีการพัฒนา ตัวอย่างเช่น ในส่วนที่เกี่ยวกับลิขสิทธิ์ ในขณะที่การทำซ้ำโดยสมบูรณ์ของการแสดงออกดั้งเดิมในหลายกรณีจะผิดกฎหมาย ในสหรัฐอเมริกา ศาลตัดสินในFeist Publications v. Rural Phone Serviceว่าอนุญาตให้ทำซ้ำข้อเท็จจริงได้

ศาลสหรัฐฯ ยอมรับว่าผู้ใช้ "เครื่องขูด" หรือ "หุ่นยนต์" อาจต้องรับผิดในความผิดฐานบุกรุกทรัพย์สิน [ 7] [8]ซึ่งเกี่ยวข้องกับระบบคอมพิวเตอร์ซึ่งถือเป็นทรัพย์สินส่วนบุคคลซึ่งผู้ใช้มีดโกนกำลังบุกรุก กรณีที่รู้จักกันดีที่สุดคือeBay v. Bidder's Edgeส่งผลให้มีคำสั่งห้ามไม่ให้ Bidder's Edge หยุดเข้าถึง รวบรวม และจัดทำดัชนีการประมูลจากเว็บไซต์ eBay กรณีนี้เกี่ยวข้องกับการเสนอราคาอัตโนมัติ หรือที่เรียกว่าการประมูลหลอกลวง อย่างไรก็ตาม การจะฟ้องคดีล่วงละเมิดทรัพย์สินได้สำเร็จโจทก์ต้องแสดงว่าจำเลยโดยจงใจและมิได้รับอนุญาตแทรกแซงการครอบครองผลประโยชน์ของโจทก์ในระบบคอมพิวเตอร์และการใช้โดยไม่ได้รับอนุญาตของจำเลยก่อให้เกิดความเสียหายแก่โจทก์ ไม่ใช่ว่าทุกกรณีของเว็บสไปเดอร์ที่นำขึ้นศาลจะถูกพิจารณาว่าเป็นการล่วงละเมิดทรัพย์สินทางปัญญา [9]

หนึ่งในการทดสอบการขูดหน้าจอ ครั้งใหญ่ครั้งแรก เกี่ยวข้องกับAmerican Airlines (AA) และบริษัท FareChase [10] AA ประสบความสำเร็จในการได้รับคำสั่งห้ามจากศาลพิจารณาคดีในเท็กซัส โดยหยุด FareChase จากการขายซอฟต์แวร์ที่ช่วยให้ผู้ใช้สามารถเปรียบเทียบค่าโดยสารออนไลน์ได้หากซอฟต์แวร์ค้นหาเว็บไซต์ของ AA ด้วย สายการบินแย้งว่าซอฟต์แวร์ค้นหาเว็บของ FareChase บุกรุกเซิร์ฟเวอร์ของ AA เมื่อรวบรวมข้อมูลที่เปิดเผยต่อสาธารณะ FareChase ยื่นอุทธรณ์ในเดือนมีนาคม พ.ศ. 2546 ในเดือนมิถุนายน FareChase และ AA ตกลงที่จะยุติการอุทธรณ์และยกเลิกการอุทธรณ์ (11)

Southwest Airlinesได้ท้าทายแนวทางปฏิบัติในการขูดหน้าจอและมีส่วนเกี่ยวข้องกับทั้ง FareChase และบริษัท Outtask อีกบริษัทหนึ่งในการเรียกร้องทางกฎหมาย Southwest Airlines ตั้งข้อหาว่าการขูดหน้าจอผิดกฎหมาย เนื่องจากเป็นตัวอย่างของ "Computer Fraud and Abuse" และทำให้เกิด "ความเสียหายและการสูญเสีย" และ "การเข้าถึงโดยไม่ได้รับอนุญาต" ของไซต์ Southwest นอกจากนี้ยังถือเป็น "การแทรกแซงความสัมพันธ์ทางธุรกิจ" "การบุกรุก" และ "การเข้าถึงที่เป็นอันตรายโดยคอมพิวเตอร์" พวกเขายังอ้างว่าการขูดหน้าจอถือเป็นสิ่งที่เรียกว่า "ยักยอกและเติมเต็มอย่างไม่ยุติธรรม" ตามกฎหมาย รวมทั้งเป็นการละเมิดข้อตกลงผู้ใช้ของเว็บไซต์ Outtask ปฏิเสธการเรียกร้องทั้งหมดเหล่านี้ โดยอ้างว่ากฎหมายที่บังคับใช้ในกรณีนี้ควรเป็นกฎหมายลิขสิทธิ์ของสหรัฐอเมริกาและภายใต้ลิขสิทธิ์ ชิ้นส่วนของข้อมูลที่ถูกคัดลอกจะไม่ได้รับการคุ้มครองลิขสิทธิ์ แม้ว่าคดีจะไม่ได้รับการแก้ไขในศาลฎีกาของสหรัฐอเมริกาแต่ในที่สุด FareChase ก็ถูกปิดโดยบริษัทแม่Yahoo! และ Outtask ถูกซื้อโดย Concur บริษัทค่าใช้จ่ายในการเดินทาง [12] ในปี 2012 บริษัทสตาร์ทอัพชื่อ 3Taps ได้คัดลอกโฆษณาบ้านจาก Craigslist Craigslist ส่ง 3Taps จดหมายหยุดและเลิกและบล็อกที่อยู่ IP ของพวกเขาและถูกฟ้องในภายหลังใน Craigslist v . 3Taps ศาลตัดสินว่าจดหมายหยุดและระงับและการบล็อก IP นั้นเพียงพอสำหรับ Craigslist เพื่ออ้างสิทธิ์อย่างถูกต้องว่า 3Taps ได้ละเมิดพระราชบัญญัติการฉ้อโกงทางคอมพิวเตอร์และการละเมิด

แม้ว่าสิ่งเหล่านี้จะเป็นเพียงการขูดรีดการตัดสินใจในขั้นต้น และทฤษฎีความรับผิดนั้นไม่เหมือนกัน แต่ก็เป็นการยากที่จะเพิกเฉยต่อรูปแบบที่ศาลเตรียมพร้อมที่จะปกป้องเนื้อหาที่เป็นกรรมสิทธิ์บนไซต์เชิงพาณิชย์จากการใช้งานที่ไม่พึงปรารถนาสำหรับเจ้าของไซต์ดังกล่าว อย่างไรก็ตาม ระดับการป้องกันสำหรับเนื้อหาดังกล่าวไม่ได้รับการตัดสินและจะขึ้นอยู่กับประเภทของการเข้าถึงที่ทำโดยมีดโกน จำนวนข้อมูลที่เข้าถึงและคัดลอก ระดับการเข้าถึงที่ส่งผลเสียต่อระบบของเจ้าของไซต์และประเภทและลักษณะ ข้อห้ามในการกระทำดังกล่าว [13]

ในขณะที่กฎหมายในพื้นที่นี้มีความชัดเจนมากขึ้น หน่วยงานที่กำลังพิจารณาใช้โปรแกรมขูดเพื่อเข้าถึงเว็บไซต์สาธารณะควรพิจารณาด้วยว่าการดำเนินการดังกล่าวได้รับอนุญาตหรือไม่โดยการตรวจสอบข้อกำหนดการใช้งานและข้อกำหนดหรือประกาศอื่นๆ ที่โพสต์หรือเผยแพร่ผ่านเว็บไซต์ ในการพิจารณาคดีในปี 2010 ในCvent, Inc.กับEventbrite, Inc.ในศาลแขวงของสหรัฐอเมริกาสำหรับเขตตะวันออกของเวอร์จิเนีย ศาลตัดสินว่าควรคำนึงถึงเงื่อนไขการใช้งานของผู้ใช้ เพื่อที่จะเรียกดู สัญญา ห่อหรือใบอนุญาตที่จะบังคับใช้ [14]ในคดีปี 2014 ถูกฟ้องในศาลแขวงสหรัฐสำหรับเขตตะวันออกของเพนซิลเวเนีย [ 15]เว็บไซต์อีคอมเมิร์ซQVCคัดค้าน Resultly ที่คล้ายกับ Pinterest ทำการขูดไซต์ของ QVC เพื่อดูข้อมูลการกำหนดราคาแบบเรียลไทม์ QVC อ้างว่าไซต์ค้าปลีกของ QVC ได้ "รวบรวมข้อมูลมากเกินไป" (กล่าวหาว่าส่งคำขอค้นหา 200-300 ไปยังเว็บไซต์ของ QVC ต่อนาที บางครั้งสูงถึง 36,000 คำขอต่อนาที) ซึ่งทำให้ไซต์ของ QVC ขัดข้องเป็นเวลาสองวัน ส่งผลให้สูญเสียยอดขายสำหรับ QVC . การร้องเรียนของ QVCอ้างว่าจำเลยปลอมตัวโปรแกรมรวบรวมข้อมูลเว็บเพื่อปกปิดที่อยู่ IP ต้นทาง และทำให้ QVC ไม่สามารถแก้ไขปัญหาได้อย่างรวดเร็ว นี่เป็นกรณีที่น่าสนใจโดยเฉพาะอย่างยิ่งเนื่องจาก QVC กำลังเรียกร้องค่าเสียหายสำหรับความไม่พร้อมใช้งานของเว็บไซต์ซึ่ง QVC อ้างว่าเกิดจาก Resultly

ในเว็บไซต์ของโจทก์ระหว่างช่วงทดลองใช้งาน ลิงก์เงื่อนไขการใช้งานจะปรากฏในลิงก์ทั้งหมดของเว็บไซต์ ที่ด้านล่างของหน้าเหมือนกับเว็บไซต์ส่วนใหญ่บนอินเทอร์เน็ต คำวินิจฉัยนี้ขัดแย้งกับคำวินิจฉัยของไอร์แลนด์ที่อธิบายไว้ด้านล่าง ศาลยังปฏิเสธข้อโต้แย้งของโจทก์ว่าข้อจำกัดการเรียกดู-wrap มีผลบังคับใช้ในมุมมองของการนำกฎหมาย Uniform Computer Information Transactions Act (UCITA) ของรัฐเวอร์จิเนียมาใช้ ซึ่งเป็นกฎหมายที่คล้ายคลึงกันซึ่งหลายคนเชื่อว่าเป็นประโยชน์ต่อแนวทางปฏิบัติในการทำสัญญาการเรียกดูแบบทั่วไป [17]

ในFacebook, Inc. กับ Power Ventures, Inc.ศาลแขวงตัดสินในปี 2555 ว่า Power Ventures ไม่สามารถขูดหน้า Facebook ในนามของผู้ใช้ Facebook ได้ คดีนี้อยู่ในระหว่างอุทธรณ์และมูลนิธิ Electronic Frontier Foundationได้ยื่นคำร้องในปี 2558 เพื่อขอให้พลิกคว่ำ [18] [19]ในAssociated Press v. Meltwater US Holdings, Inc.ศาลแห่งหนึ่งในสหรัฐฯ ถือ Meltwater รับผิดชอบในการขูดและเผยแพร่ข้อมูลข่าวจาก Associated Press แต่ศาลในสหราชอาณาจักรสนับสนุน Meltwater

Internet Archiveรวบรวมและแจกจ่ายหน้าเว็บที่เผยแพร่ต่อสาธารณะจำนวนมากโดยไม่ถูกพิจารณาว่าละเมิดกฎหมายลิขสิทธิ์

สหภาพยุโรป

ในเดือนกุมภาพันธ์ พ.ศ. 2549 ศาลการเดินเรือและพาณิชย์ ของ เดนมาร์ก (โคเปนเฮเกน) ตัดสินว่าการรวบรวมข้อมูล การจัดทำดัชนี และการเชื่อมโยงอย่างซับซ้อนโดยพอร์ทัลไซต์ ofir.dk ของเว็บไซต์อสังหาริมทรัพย์ Home.dk ไม่ขัดต่อกฎหมายของเดนมาร์กหรือคำสั่งฐานข้อมูลของสหภาพยุโรป (20)

ในคดีกุมภาพันธ์ 2010 ที่ซับซ้อนโดยเรื่องของเขตอำนาจศาล ศาลสูงของไอร์แลนด์ได้ตัดสินชี้ขาดซึ่งแสดงให้เห็นสถานะของกฎหมายคดีที่กำลังพัฒนา ในกรณีของRyanair Ltd v Billigfluege.de GmbHศาลสูงของไอร์แลนด์ได้ตัดสิน ให้ข้อตกลง " click-wrap " ของ Ryanairมีผลผูกพันทางกฎหมาย ตรงกันข้ามกับผลการพิจารณาของศาลแขวงสหรัฐในเขตตะวันออกของเวอร์จิเนียและของศาลการเดินเรือและพาณิชย์ของเดนมาร์ก ผู้พิพากษาMichael Hannaตัดสินว่าไฮเปอร์ลิงก์ไปยังข้อกำหนดและเงื่อนไขของ Ryanair นั้นมองเห็นได้ชัดเจน และวางภาระหน้าที่ให้กับผู้ใช้ ยอมรับข้อกำหนดและเงื่อนไขเพื่อเข้าถึงบริการออนไลน์ก็เพียงพอแล้วที่จะประกอบเป็นความสัมพันธ์ตามสัญญา[21]การตัดสินใจอยู่ภายใต้การอุทธรณ์ในศาลฎีกาของไอร์แลนด์ [22]

เมื่อวันที่ 30 เมษายน 2020 หน่วยงานคุ้มครองข้อมูลของฝรั่งเศส (CNIL) ได้ออกแนวทางใหม่เกี่ยวกับการขูดเว็บ [23]แนวทางของ CNIL ระบุไว้ชัดเจนว่าข้อมูลที่เปิดเผยต่อสาธารณะยังคงเป็นข้อมูลส่วนบุคคลและไม่สามารถนำไปใช้ใหม่ได้หากปราศจากความรู้ของบุคคลที่เป็นเจ้าของข้อมูลนั้น [24]

ออสเตรเลีย

ในออสเตรเลียSpam Act 2003ผิดกฎหมายการเก็บเกี่ยวเว็บบางรูปแบบ แม้ว่าจะมีผลกับที่อยู่อีเมลเท่านั้น [25] [26]

อินเดีย

ออกจากบางกรณีที่เกี่ยวข้องกับการละเมิดสิทธิในทรัพย์สินทางปัญญา ศาลอินเดียไม่ได้ตัดสินอย่างชัดแจ้งเกี่ยวกับความถูกต้องตามกฎหมายของการขูดเว็บ อย่างไรก็ตาม เนื่องจากรูปแบบสัญญาทางอิเล็กทรอนิกส์ทั่วไปทั้งหมดมีผลบังคับใช้ในอินเดีย การละเมิดเงื่อนไขการใช้งานที่ห้ามไม่ให้มีการขูดข้อมูลจะเป็นการละเมิดกฎหมายสัญญา นอกจากนี้ยังจะละเมิดพระราชบัญญัติเทคโนโลยีสารสนเทศ พ.ศ. 2543ซึ่งลงโทษการเข้าถึงทรัพยากรคอมพิวเตอร์โดยไม่ได้รับอนุญาตหรือดึงข้อมูลจากทรัพยากรคอมพิวเตอร์

วิธีการป้องกันการขูดเว็บ

ผู้ดูแลเว็บไซต์สามารถใช้มาตรการต่างๆ เพื่อหยุดหรือชะลอบอทได้ เทคนิคบางอย่างรวมถึง:

  • การบล็อกที่อยู่ IPด้วยตนเองหรือตามเกณฑ์ เช่น ตำแหน่ง ทางภูมิศาสตร์และDNSRBL การดำเนินการนี้จะบล็อกการเรียกดูทั้งหมดจากที่อยู่นั้นด้วย
  • ปิดใช้งานAPI ของ บริการเว็บ ใดๆ ที่ระบบของเว็บไซต์อาจเปิดเผย
  • บางครั้งบอทประกาศว่าพวกเขาเป็นใคร (โดย ใช้ สตริงตัวแทนผู้ใช้ ) และสามารถบล็อกได้โดยใช้robots.txt ' googlebot ' เป็นตัวอย่าง บอทอื่นๆ ไม่ได้แยกความแตกต่างระหว่างตัวเองกับมนุษย์โดยใช้เบราว์เซอร์
  • บอทสามารถบล็อกได้โดยการตรวจสอบปริมาณการใช้งานส่วนเกิน
  • บางครั้งสามารถบล็อกบอทด้วยเครื่องมือเพื่อยืนยันว่าเป็นบุคคลจริงที่เข้าถึงไซต์เช่นCAPTCHA บ็อตบางครั้งถูกเข้ารหัสเพื่อทำลายรูปแบบ CAPTCHA ที่เฉพาะเจาะจงหรืออาจใช้บริการของบุคคลที่สามที่ใช้แรงงานคนเพื่ออ่านและตอบสนองต่อความท้าทายของ CAPTCHA แบบเรียลไทม์
  • บริการต่อต้านบอทเชิงพาณิชย์: บริษัทเสนอบริการต่อต้านบอทและต่อต้านการขูดสำหรับเว็บไซต์ ไฟร์วอลล์ของเว็บ แอปพลิเคชันบางตัว มีความสามารถในการตรวจจับบอทที่จำกัดเช่นกัน อย่างไรก็ตาม วิธีแก้ปัญหาดังกล่าวจำนวนมากไม่ได้ผลมากนัก [27]
  • การค้นหาบอทด้วยhoneypotหรือวิธีอื่นๆ เพื่อระบุที่อยู่ IP ของโปรแกรมรวบรวมข้อมูลอัตโนมัติ
  • การสร้างความ สับสนโดยใช้CSS spriteเพื่อแสดงข้อมูลเช่นหมายเลขโทรศัพท์หรือที่อยู่อีเมล โดยต้องเสียค่าการเข้าถึงสำหรับ ผู้ ใช้โปรแกรมอ่านหน้าจอ
  • เนื่องจากบอทอาศัยความสม่ำเสมอในโค้ดส่วนหน้าของเว็บไซต์เป้าหมาย การเพิ่มรูปแบบเล็กๆ ให้กับ HTML/CSS โดยรอบข้อมูลที่สำคัญและองค์ประกอบการนำทางจะต้องอาศัยการมีส่วนร่วมของมนุษย์มากขึ้นในการตั้งค่าบอทเบื้องต้น และหากทำอย่างมีประสิทธิภาพอาจทำให้ เว็บไซต์เป้าหมายยากเกินไปที่จะขูดเนื่องจากความสามารถในการทำให้กระบวนการขูดอัตโนมัติลดลง
  • เว็บไซต์สามารถประกาศได้ว่าอนุญาตให้รวบรวมข้อมูลหรือไม่ใน ไฟล์ robots.txtและอนุญาตการเข้าถึงบางส่วน จำกัดอัตราการรวบรวมข้อมูล ระบุเวลาที่เหมาะสมที่สุดในการรวบรวมข้อมูล และอื่นๆ
  • โหลดข้อมูลฐานข้อมูลลงใน HTML DOM โดยตรงผ่านAJAXและใช้วิธี DOM เพื่อแสดง ไม่มีข้อมูลที่มองเห็นได้ในเอกสารต้นทางหมายความว่าไม่สามารถคัดลอกได้

ดูเพิ่มเติม

อ้างอิง

  1. ^ "Search Engine History.com" . ประวัติ เครื่องมือค้นหา สืบค้นเมื่อ26 พฤศจิกายน 2019 .
  2. ^ เพลง รุ่ยฮวา; การวิจัยของ Microsoft (14 ก.ย. 2550) "การเพิ่มประสิทธิภาพร่วมกันของการสร้าง Wrapper และการตรวจจับเทมเพลต" (PDF ) The 13th International Conference on Knowledge Discovery and Data Mining : 894. doi : 10.1145/1281192.1281287 . ISBN  9781595936097. S2CID  833565 . เก็บถาวรจากต้นฉบับ (PDF)เมื่อวันที่ 11 ตุลาคม 2559
  3. ^ การคัดลอกเว็บตามคำอธิบายประกอบเชิงความหมาย
  4. ^ โรช, เวด (2012-07-25) "Diffbot ใช้ Computer Vision ในการสร้างสรรค์เว็บเชิงความหมายขึ้นมาใหม่ " www.xconom.com . สืบค้นเมื่อ2013-03-15 .
  5. ^ "คำถามที่พบบ่อยเกี่ยวกับการเชื่อมโยง – เงื่อนไขการใช้งานเว็บไซต์เป็นสัญญาผูกมัดหรือไม่" . www.chillingEffects.org. 2007-08-20. เก็บถาวรจากต้นฉบับเมื่อ 2002-03-08 . สืบค้นเมื่อ2007-08-20 .
  6. ↑ เคนเนธ, เฮิร์ชชีย์, เจฟฟรีย์ (2014-01-01) . "ความสัมพันธ์แบบพึ่งพาอาศัยกัน: การยอมรับในทางปฏิบัติของการขูดข้อมูล" . วารสารกฎหมายเทคโนโลยีเบิร์กลีย์ . 29 (4). ดอย : 10.15779/Z38B39B . ISSN 1086-3818 . 
  7. ^ "กฎหมายอินเทอร์เน็ต Ch. 06: Trespass to Chattels" . www.tomwbell.com. 2550-08-20 . สืบค้นเมื่อ2007-08-20 .
  8. ^ "อะไรคือ "การบุกรุกทรัพย์สิน" ที่อ้างว่าบางบริษัทหรือเจ้าของเว็บไซต์นำมา? . www.chillingEffects.org. 2007-08-20. เก็บถาวรจากต้นฉบับเมื่อ 2002-03-08 . สืบค้นเมื่อ2007-08-20 .
  9. ^ "Ticketmaster Corp. กับ Tickets.com, Inc " 2550-08-20 . สืบค้นเมื่อ2007-08-20 .
  10. ^ "อเมริกันแอร์ไลน์ v. FareChase" (PDF) . 2007-08-20. เก็บถาวรจากต้นฉบับ(PDF) เมื่อ 2011-07-23 สืบค้นเมื่อ2007-08-20 .
  11. ^ "อเมริกันแอร์ไลน์, FareChase Settle Suit" . ห้องสมุดฟรี 2546-06-13 . สืบค้นเมื่อ2012-02-26 .
  12. ^ Imperva (2011). การตรวจจับและบล็อกการโจมตี ด้วยการขูดไซต์ กระดาษขาวอิมเพอร์วา..
  13. แอดเลอร์, เคนเนธ เอ. (2003-07-29). "ความขัดแย้งรอบ 'ตัวขูดหน้าจอ': ซอฟต์แวร์ช่วยให้ผู้ใช้เข้าถึงเว็บไซต์ แต่กิจกรรมโดยคู่แข่งต้องอยู่ภายใต้การตรวจสอบอย่าง ละเอียด" เก็บถาวรจากต้นฉบับเมื่อ 2011-02-11 สืบค้นเมื่อ2010-10-27 .
  14. ^ "QVC Inc. v. Resultly LLC, No. 14-06714 (ED Pa. filed 24 พฤศจิกายน 2014)" (PDF ) 2014-11-24 . สืบค้นเมื่อ2015-11-05 .
  15. ^ "QVC Inc. v. Resultly LLC, No. 14-06714 (ED Pa. filed 24 พฤศจิกายน 2014) " ศาลแขวงสหรัฐในเขตตะวันออกของเพนซิลเวเนีย สืบค้นเมื่อ5 พฤศจิกายน 2558 .
  16. นอยเบอร์เกอร์, เจฟฟรีย์ ดี (5 ธันวาคม 2014). “QVC ฟ้องแอพ Shopping สำหรับการขูดเว็บที่ถูกกล่าวหาว่าไซต์หยุดทำงานทบทวนกฎหมายแห่งชาติ . พรอสเคาเออร์ โรส แอ ลแอ ล พี สืบค้นเมื่อ5 พฤศจิกายน 2558 .
  17. "Iqbal/Twombly ได้ยกระดับการเรียกร้องค่าสินไหมทดแทนแบบเรียกดูหรือไม่" (PDF) . 2010-09-17 . สืบค้นเมื่อ2010-10-27 .
  18. ^ "การขูดเนื้อหาที่ไม่ละเมิดลิขสิทธิ์สามารถกลายเป็นการละเมิดลิขสิทธิ์ได้ ... เพราะวิธีการทำงานของเครื่องขูด? | Techdirt " เท คดิ ท. 2552-06-10 . สืบค้นเมื่อ2016-05-24 .
  19. ^ "Facebook v. พาวเวอร์เวนเจอร์ส" . มูลนิธิพรมแดนอิเล็กทรอนิกส์. สืบค้นเมื่อ2016-05-24 .
  20. ^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (ในภาษาเดนมาร์ก) bvhd.dk. 2006-02-24. เก็บถาวรจากต้นฉบับ(PDF) เมื่อ 2007-10-12 ดึงข้อมูลเมื่อ2007-05-30 .
  21. ^ "คำตัดสินของศาลสูงแห่งไอร์แลนด์ >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 กุมภาพันธ์ 2010) " สถาบันข้อมูลกฎหมายอังกฤษและไอริช 2010-02-26 . สืบค้นเมื่อ2012-04-19 .
  22. ↑ Matthews, Áine (มิถุนายน 2010). "ทรัพย์สินทางปัญญา: ข้อกำหนดการใช้งาน เว็บไซต์" ฉบับที่ 26: มิถุนายน 2553 LK Shields ทนายความอัพเดท หน้า 03 . สืบค้นเมื่อ2012-04-19 .
  23. ↑ "La réutilisation des données publiquement accesss en ligne à des fins de démarchage commercial | CNIL" . www.cnil.fr (ภาษาฝรั่งเศส) . สืบค้นเมื่อ2020-07-05 .
  24. ^ FindDataLab.com (2020-06-09). "คุณยังสามารถทำการขูดเว็บด้วยแนวทาง CNIL ใหม่ได้หรือไม่" . ปานกลาง. สืบค้นเมื่อ2020-07-05 .
  25. สำนักงานเศรษฐกิจสารสนเทศแห่งชาติ (กุมภาพันธ์ 2547). "พระราชบัญญัติสแปม พ.ศ. 2546: ภาพรวมสำหรับธุรกิจ" . สำนักงานสื่อสารแห่งออสเตรเลีย หน้า 6 . สืบค้นเมื่อ2017-12-07 .
  26. สำนักงานเศรษฐกิจสารสนเทศแห่งชาติ (กุมภาพันธ์ 2547). "พระราชบัญญัติสแปม พ.ศ. 2546: คู่มือปฏิบัติสำหรับธุรกิจ" (PDF) . สำนักงานสื่อสารแห่งออสเตรเลีย หน้า 20 . สืบค้นเมื่อ2017-12-07 .
  27. ↑ Mayank Dhiman Breaking Fraud & Bot Detection Solutions OWASP AppSec Cali' 2018ดึงข้อมูลเมื่อ 10 กุมภาพันธ์ 2018