การเก็บถาวรเว็บ

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

การเก็บถาวรเว็บเป็นกระบวนการในการรวบรวมส่วนต่างๆ ของเวิลด์ไวด์เว็บเพื่อให้แน่ใจว่าข้อมูลจะได้รับการเก็บรักษาไว้ในที่เก็บถาวรสำหรับนักวิจัย นักประวัติศาสตร์ และสาธารณชนในอนาคต โดยทั่วไปแล้ว ผู้จัดเก็บเอกสารทางเว็บจะใช้โปรแกรมรวบรวมข้อมูลเว็บสำหรับการจับภาพอัตโนมัติ เนื่องจากมีข้อมูลขนาดใหญ่และปริมาณมากบนเว็บ องค์กรเก็บถาวรเว็บที่ใหญ่ที่สุดตามวิธีการรวบรวมข้อมูลจำนวนมากคือWayback Machineซึ่งมุ่งมั่นที่จะรักษาที่เก็บถาวรของเว็บทั้งหมด

ส่วนที่เพิ่มขึ้นของวัฒนธรรมมนุษย์ที่สร้างขึ้นและบันทึกบนเว็บทำให้หลีกเลี่ยงไม่ได้ที่ห้องสมุดและหอจดหมายเหตุจำนวนมากขึ้นเรื่อย ๆ จะต้องเผชิญกับความท้าทายในการเก็บถาวรเว็บ [1] ห้องสมุดแห่งชาติ , หอจดหมายเหตุแห่งชาติและไพรีต่างๆขององค์กรที่มีส่วนร่วมในการจัดเก็บเนื้อหาของเว็บที่สำคัญทางวัฒนธรรม

ซอฟต์แวร์และบริการเก็บถาวรเว็บเชิงพาณิชย์ยังมีให้บริการสำหรับองค์กรที่ต้องการเก็บถาวรเนื้อหาเว็บของตนเองเพื่อวัตถุประสงค์ในการเป็นมรดกขององค์กร กฎระเบียบ หรือทางกฎหมาย

ประวัติและพัฒนาการ

ในขณะที่การดูแลจัดการและองค์กรของเว็บที่ได้รับการแพร่หลายตั้งแต่ช่วงกลางถึงปลายปี 1990 ซึ่งเป็นหนึ่งในขนาดใหญ่เว็บเก็บโครงการแรกเป็นอินเทอร์เน็ตเอกสารเก่าซึ่งเป็นองค์กรที่ไม่แสวงหาผลกำไรที่สร้างขึ้นโดยเบียร์ Kahleในปี 1996 [2] Internet Archive เปิดตัวเสิร์ชเอ็นจิ้นของตัวเองสำหรับการดูเนื้อหาเว็บที่เก็บถาวร นั่นคือWayback Machineในปี 2544 [2]ณ ปี 2018 Internet Archive มีข้อมูล 40 เพตาไบต์[3] Internet Archive ยังได้พัฒนาเครื่องมือของตนเองจำนวนมากสำหรับการรวบรวมและจัดเก็บข้อมูล รวมถึง Petabox สำหรับการจัดเก็บข้อมูลจำนวนมากอย่างมีประสิทธิภาพและปลอดภัย และ Hertrix ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บที่พัฒนาร่วมกับห้องสมุดแห่งชาติของนอร์ดิก[2]โครงการอื่น ๆ ที่เปิดตัวในช่วงเวลาเดียวกัน ได้แก่คลังข้อมูลเว็บ Pandoraและ Tasmanian ของออสเตรเลียและ Kulturarw3 ของสวีเดน [4]

ตั้งแต่ปี 2544 ถึง พ.ศ. 2553 [ การตรวจสอบล้มเหลว ] International Web Archiving Workshop (IWAW) ได้จัดให้มีเวทีในการแบ่งปันประสบการณ์และแลกเปลี่ยนความคิดเห็น [5] [6] The International Internet Preservation Consortium (IIPC)ก่อตั้งขึ้นในปี 2546 ได้อำนวยความสะดวกในการทำงานร่วมกันระหว่างประเทศในด้านมาตรฐานการพัฒนาและเครื่องมือโอเพ่นซอร์สสำหรับการสร้างคลังข้อมูลบนเว็บ [7]

Internet Memory Foundation ที่หมดอายุแล้วในขณะนี้ก่อตั้งขึ้นในปี 2004 และก่อตั้งโดยคณะกรรมาธิการยุโรปเพื่อเก็บถาวรเว็บในยุโรป [2]โปรเจ็กต์นี้พัฒนาและเผยแพร่เครื่องมือโอเพนซอร์ซจำนวนมาก เช่น "การบันทึกสื่อสมบูรณ์ การวิเคราะห์การเชื่อมโยงกันชั่วคราว การประเมินสแปม และการตรวจจับวิวัฒนาการของคำศัพท์" [2]ข้อมูลจากมูลนิธิถูกจัดเก็บโดย Internet Archive แต่ปัจจุบันไม่สามารถเข้าถึงได้โดยสาธารณะ [8]

แม้ว่าจะไม่มีความรับผิดชอบจากส่วนกลางในการเก็บรักษา แต่เนื้อหาเว็บก็กลายเป็นบันทึกอย่างเป็นทางการอย่างรวดเร็ว ตัวอย่างเช่น ในปี 2560 กระทรวงยุติธรรมของสหรัฐอเมริกายืนยันว่ารัฐบาลปฏิบัติต่อทวีตของประธานาธิบดีในฐานะแถลงการณ์อย่างเป็นทางการ [9]

รวบรวมเว็บ

เว็บบรรณารักษ์โดยทั่วไปเก็บหลากหลายชนิดรวมทั้งเนื้อหาเว็บHTMLหน้าเว็บ, แผ่นสไตล์ , JavaScript , ภาพและวิดีโอ พวกเขายังเก็บถาวรข้อมูลเมตาเกี่ยวกับทรัพยากรที่รวบรวม เช่น เวลาเข้าถึงประเภท MIMEและความยาวของเนื้อหา ข้อมูลเมตานี้มีประโยชน์ในการสร้างความถูกต้องและที่มาของคอลเล็กชันที่เก็บถาวร

วิธีการรวบรวม

การเก็บเกี่ยวระยะไกล

เทคนิคการเก็บถาวรเว็บที่ใช้บ่อยที่สุดใช้โปรแกรมรวบรวมข้อมูลเว็บเพื่อทำให้กระบวนการรวบรวมหน้าเว็บเป็นแบบอัตโนมัติ โปรแกรมรวบรวมข้อมูลเว็บมักจะเข้าถึงหน้าเว็บในลักษณะเดียวกับที่ผู้ใช้ที่มีเบราว์เซอร์เห็นเว็บ ดังนั้นจึงมีวิธีการที่ค่อนข้างง่ายในการเก็บเกี่ยวเนื้อหาเว็บจากระยะไกล ตัวอย่างของโปรแกรมรวบรวมข้อมูลเว็บที่ใช้สำหรับการเก็บถาวรเว็บ ได้แก่:

มีบริการฟรีมากมายที่อาจใช้เพื่อเก็บถาวรทรัพยากรบนเว็บ "ตามต้องการ" โดยใช้เทคนิคการรวบรวมข้อมูลเว็บ บริการเหล่านี้รวมถึงเครื่อง WaybackและWebCite

การเก็บถาวรฐานข้อมูล

การเก็บถาวรฐานข้อมูลหมายถึงวิธีการเก็บถาวรเนื้อหาพื้นฐานของเว็บไซต์ที่ขับเคลื่อนด้วยฐานข้อมูล มันมักจะต้องใช้การสกัดของฐานข้อมูลเนื้อหาลงในมาตรฐานสคีมักใช้XMLเมื่อจัดเก็บในรูปแบบมาตรฐานแล้ว เนื้อหาที่เก็บถาวรของฐานข้อมูลหลายฐานข้อมูลจะถูกทำให้พร้อมใช้งานโดยใช้ระบบการเข้าถึงเดียว วิธีนี้เป็นวิธีสุดขั้วโดยDeepArcและXinqเครื่องมือที่พัฒนาโดยBibliothèque Nationale de Franceและหอสมุดแห่งชาติของออสเตรเลียตามลำดับ DeepArc ช่วยให้โครงสร้างของฐานข้อมูลเชิงสัมพันธ์สามารถจับคู่กับXML schemaและเนื้อหาที่ส่งออกไปยังเอกสาร XML Xinq อนุญาตให้ส่งเนื้อหานั้นทางออนไลน์ แม้ว่ารูปแบบและลักษณะการทำงานดั้งเดิมของเว็บไซต์จะไม่สามารถรักษาไว้ได้อย่างแน่นอน แต่ Xinq อนุญาตให้จำลองฟังก์ชันการสืบค้นและดึงข้อมูลพื้นฐานได้

การเก็บถาวรธุรกรรม

การเก็บข้อมูลการทำธุรกรรมเป็นวิธีเหตุการณ์ที่ขับเคลื่อนด้วยที่รวบรวมการทำธุรกรรมที่เกิดขึ้นจริงที่เกิดขึ้นระหว่างเว็บเซิร์ฟเวอร์และเว็บเบราเซอร์ ส่วนใหญ่จะใช้เป็นวิธีการรักษาหลักฐานของเนื้อหาที่มีการดูจริงบนเว็บไซต์เฉพาะในวันที่กำหนด สิ่งนี้อาจมีความสำคัญเป็นพิเศษสำหรับองค์กรที่ต้องปฏิบัติตามข้อกำหนดทางกฎหมายหรือข้อบังคับสำหรับการเปิดเผยและเก็บรักษาข้อมูล [10]

โดยทั่วไป ระบบการเก็บถาวรตามธุรกรรมจะทำงานโดยสกัดกั้นทุกคำขอHTTP ที่ส่งถึง และตอบกลับจากเว็บเซิร์ฟเวอร์ กรองการตอบสนองแต่ละรายการเพื่อกำจัดเนื้อหาที่ซ้ำกัน และจัดเก็บการตอบสนองเป็นบิตสตรีมอย่างถาวร

ความยากและข้อจำกัด

โปรแกรมรวบรวมข้อมูล

ที่เก็บถาวรของเว็บซึ่งอาศัยการรวบรวมข้อมูลเว็บเป็นวิธีหลักในการรวบรวมเว็บนั้นได้รับอิทธิพลจากความยากลำบากในการรวบรวมข้อมูลเว็บ:

  • โปรโตคอลโรบอตอาจขอโปรแกรมรวบรวมข้อมูลไม่ได้ส่วนการเข้าถึงเว็บไซต์ ผู้เก็บเอกสารทางเว็บบางคนอาจเพิกเฉยต่อคำขอและรวบรวมข้อมูลส่วนเหล่านั้นอยู่ดี
  • ส่วนใหญ่มาจากเว็บไซต์อาจจะซ่อนอยู่ในเว็บลึก ตัวอย่างเช่น หน้าผลลัพธ์หลังแบบฟอร์มเว็บอาจอยู่ใน Deep Web หากโปรแกรมรวบรวมข้อมูลไม่สามารถติดตามลิงก์ไปยังหน้าผลลัพธ์ได้
  • กับดักของโปรแกรมรวบรวมข้อมูล (เช่น ปฏิทิน) อาจทำให้โปรแกรมรวบรวมข้อมูลดาวน์โหลดหน้าเว็บได้ไม่จำกัด ดังนั้นโดยปกติแล้วโปรแกรมรวบรวมข้อมูลจะได้รับการกำหนดค่าให้จำกัดจำนวนหน้าแบบไดนามิกที่รวบรวมข้อมูล
  • เครื่องมือเก็บถาวรส่วนใหญ่ไม่ได้จับภาพหน้าตามที่เป็นอยู่ สังเกตได้ว่ามักพลาดแบนเนอร์โฆษณาและรูปภาพขณะเก็บถาวร

อย่างไรก็ตาม สิ่งสำคัญที่ควรทราบคือไฟล์เก็บถาวรเว็บรูปแบบเนทีฟ เช่น ไฟล์เก็บถาวรเว็บที่เรียกดูได้ทั้งหมด พร้อมลิงก์ที่ใช้งานได้ สื่อ ฯลฯ เป็นไปได้จริง ๆ โดยใช้เทคโนโลยีของโปรแกรมรวบรวมข้อมูลเท่านั้น

เว็บมีขนาดใหญ่มากจนการรวบรวมข้อมูลส่วนสำคัญของเว็บต้องใช้ทรัพยากรทางเทคนิคจำนวนมาก เว็บมีการเปลี่ยนแปลงอย่างรวดเร็วจนบางส่วนของเว็บไซต์อาจเปลี่ยนแปลงได้ก่อนที่โปรแกรมรวบรวมข้อมูลจะรวบรวมข้อมูลเสร็จสิ้น

ข้อจำกัดทั่วไป

เว็บเซิร์ฟเวอร์บางแห่งได้รับการกำหนดค่าให้ส่งคืนหน้าเว็บต่างๆ ไปยังคำขอของผู้จัดเก็บเว็บมากกว่าที่จะตอบสนองต่อคำขอของเบราว์เซอร์ปกติ โดยทั่วไปจะทำเพื่อหลอกเครื่องมือค้นหาให้นำการเข้าชมของผู้ใช้ไปยังเว็บไซต์มากขึ้น และมักจะทำเพื่อหลีกเลี่ยงความรับผิดชอบ หรือเพื่อให้เนื้อหาที่ได้รับการปรับปรุงเฉพาะกับเบราว์เซอร์ที่สามารถแสดงผลได้เท่านั้น

ผู้เก็บเอกสารทางเว็บไม่เพียงต้องรับมือกับความท้าทายทางเทคนิคของการเก็บถาวรเว็บเท่านั้น แต่ยังต้องต่อสู้กับกฎหมายทรัพย์สินทางปัญญาด้วย Peter Lyman [11]กล่าวว่า "แม้ว่าเว็บจะได้รับการยกย่องว่าเป็นแหล่งข้อมูลที่เป็นสาธารณสมบัติแต่ก็มีลิขสิทธิ์ดังนั้นผู้เก็บเอกสารจึงไม่มีสิทธิ์ตามกฎหมายที่จะคัดลอกเว็บ" อย่างไรก็ตามห้องสมุดแห่งชาติในบางประเทศ[12]มีสิทธิตามกฎหมายที่จะคัดลอกบางส่วนของเว็บที่อยู่ภายใต้การขยายตัวของหนึ่งกฎหมายฝาก

ไฟล์เก็บถาวรเว็บส่วนตัวที่ไม่หวังผลกำไรบางส่วนที่เปิดเผยต่อสาธารณะเช่นWebCite , Internet ArchiveหรือInternet Memory Foundationอนุญาตให้เจ้าของเนื้อหาซ่อนหรือลบเนื้อหาที่เก็บถาวรซึ่งไม่ต้องการให้สาธารณชนเข้าถึงได้ ที่เก็บถาวรของเว็บอื่น ๆ สามารถเข้าถึงได้จากบางสถานที่หรือมีการควบคุมการใช้งานเท่านั้น WebCite อ้างถึงคดีความเมื่อเร็ว ๆ นี้เกี่ยวกับการแคชของ Googleซึ่งGoogleชนะ [13]

กฎหมาย

ในปี 2017 Financial Industry Regulatory Authority, Inc. (FINRA) ซึ่งเป็นองค์กรกำกับดูแลด้านการเงินของสหรัฐอเมริกา ได้ออกประกาศระบุว่าธุรกิจทั้งหมดที่ทำการสื่อสารดิจิทัลจำเป็นต้องเก็บบันทึกไว้ ซึ่งรวมถึงข้อมูลเว็บไซต์ โพสต์บนโซเชียลมีเดีย และข้อความ [14]กฎหมายลิขสิทธิ์บางฉบับอาจขัดขวางการเก็บถาวรเว็บ ตัวอย่างเช่น การเก็บถาวรทางวิชาการโดยSci-Hubอยู่นอกขอบเขตของกฎหมายลิขสิทธิ์ร่วมสมัย ไซต์นี้ให้การเข้าถึงผลงานทางวิชาการที่ยั่งยืนรวมถึงงานที่ไม่มีใบอนุญาตการเข้าถึงแบบเปิดและด้วยเหตุนี้จึงมีส่วนช่วยในการเก็บถาวรของงานวิจัยทางวิทยาศาสตร์ที่อาจสูญหายได้ [15] [16]

ดูเพิ่มเติม

อ้างอิง

การอ้างอิง

  1. ^ "Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report" . เกล ทรูแมน. 2559. อ้างอิงวารสารต้องการ|journal=( ความช่วยเหลือ )
  2. อรรถa b c d e Toyoda, M.; Kitsuregawa, M. (พฤษภาคม 2012). "ประวัติการเก็บถาวรเว็บ" . การดำเนินการของ IEEE 100 (ฉบับร้อยปีพิเศษ): 1441–1443 ดอย : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219 . 
  3. ^ "Inside Wayback Machine ไทม์แคปซูลของอินเตอร์เน็ต" . เร่งรีบ . 28 กันยายน 2561. ก.ย. กลับมาแล้ววววววว สืบค้นเมื่อ21 กรกฎาคม 2020 .
  4. คอสตา มิเกล; โกเมส, แดเนียล; Silva, Mário J. (กันยายน 2017). "วิวัฒนาการของการเก็บถาวรเว็บ". วารสารนานาชาติเกี่ยวกับห้องสมุดดิจิทัล . 18 (3): 191–205. ดอย : 10.1007/s00799-016-0171-9 . ISSN 1432-5012 . S2CID 24303455 .  [ จำเป็นต้องตรวจสอบ ]
  5. ^ "IWAW 2010: 10 สนามบินนานาชาติเว็บเก็บการประชุมเชิงปฏิบัติการ" www.wikicfp.com . สืบค้นเมื่อ19 สิงหาคม 2019 .
  6. ^ "IWAW - เวิร์กช็อปการเก็บถาวรเว็บระหว่างประเทศ" . bibnum.bnf.fr สืบค้นเมื่อ19 สิงหาคม 2019 .
  7. ^ "เกี่ยวกับ IIPC" . IIPC สืบค้นเมื่อ19 สิงหาคม 2019 .[ จำเป็นต้องตรวจสอบ ]
  8. ^ "มูลนิธิอินเทอร์เน็ตหน่วยความจำ: เว็บฟรี: ดาวน์โหลดฟรี, ยืมและสตรีมมิ่ง" archive.org . อินเทอร์เน็ตเอกสารเก่า สืบค้นเมื่อ21 กรกฎาคม 2020 .
  9. เรจิส, คามิลล์ (4 มิถุนายน 2019). "เว็บเก็บถาวร: คิดว่าเว็บถาวร? คิดใหม่อีกครั้ง" . ประวัติผู้ร่วมงาน. สืบค้นเมื่อ14 กรกฎาคม 2019 .
  10. ผู้แต่ง, บราวน์, เอเดรียน, 1969- (10 มกราคม 2559). เก็บเว็บไซต์: คู่มือการปฏิบัติสำหรับมืออาชีพด้านการจัดการข้อมูล ISBN 978-1-78330-053-2. OCLC  1064574312 .
  11. ^ ไลมัน (2002)
  12. ^ "เงินฝากทางกฎหมาย | IIPC" . netpreserve.org . เก็บถาวรจากต้นฉบับเมื่อ 16 มีนาคม 2017 . สืบค้นเมื่อ31 มกราคม 2017 .
  13. ^ "คำถามที่พบบ่อยของ WebCite" . Webcitation.org . สืบค้นเมื่อ20 กันยายน 2018 .
  14. ^ "สื่อสังคมและการสื่อสารดิจิตอล" (PDF) finra.org ฟินร่า
  15. ^ Claburn โทมัส (10 กันยายน 2020) "วารสารการเข้าถึงแบบเปิดกำลังหายไปจากเว็บ Internet Archive พร้อมที่จะเติมเต็มในช่องว่าง" . ทะเบียน .
  16. ^ ลัคโซ มิคาเอล; แมทเธียส, ลิซ่า; จาห์น, นัจโกะ (2021). "การเปิดไม่ใช่ตลอดไป: การศึกษาวารสารการเข้าถึงแบบเปิดที่หายไป" วารสาร สมาคม สารสนเทศ ศาสตร์ และเทคโนโลยี . arXiv : 2008.11933 . ดอย : 10.1002/ASI.24460 . S2CID 221340749 . 

บรรณานุกรมทั่วไป

ลิงค์ภายนอก