ความช่วยเหลือ:ส่งออก

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

หน้า Wiki สามารถส่งออกใน รูปแบบ XML พิเศษ เพื่อนำเข้าไปยังการติดตั้งมีเดียวิกิอื่น หรือใช้อย่างอื่นเช่นสำหรับการวิเคราะห์เนื้อหา ดูเพิ่มเติมที่m:ฟีด การรวม สำหรับการส่งออกข้อมูลอื่นๆ ทั้งหมดยกเว้นหน้า และดูวิธีใช้:นำเข้าในการนำเข้าหน้า

วิธีการส่งออก

มีอย่างน้อยหกวิธีในการส่งออกหน้า:

  • วางชื่อบทความลงในช่องSpecial:Exportหรือใช้https://en.wikipedia.org/wiki/Special:Export/FULLPAGENAME
  • ใช้action=raw. (เรียกเฉพาะข้อความวิกิของหน้าเท่านั้น ไม่ใช่รูปแบบ XML ที่อธิบายไว้ด้านล่าง) ตัวอย่างเช่น: https://en.wikipedia.org/w/index.php?title=Wikipedia&action=raw .. ควรใช้/w/index.php?title=PAGENAME&action=rawหรือไม่ ใช้ /wiki/PAGENAME?action=raw(ดูภาบ T126183 )
  • ใช้ API เพื่อดึงข้อมูลในบรรจุภัณฑ์ XML หรือ JSON
  • สคริปต์สำรองdumpBackup.php ดัมพ์หน้าวิกิทั้งหมดลงในไฟล์ XML dumpBackup.phpใช้งานได้กับมีเดียวิกิ 1.5 หรือใหม่กว่าเท่านั้น คุณต้องมีสิทธิ์เข้าถึงเซิร์ฟเวอร์โดยตรงเพื่อเรียกใช้สคริปต์นี้ ข้อมูลขยะของโครงการมีเดียวิกิมีอยู่ (มากหรือน้อย) ที่เผยแพร่เป็นประจำที่http://download.wikipedia.org ความช่วยเหลือเพิ่มเติมอยู่ที่http://www.mediawiki.org/wiki/Manual:DumpBackup.php
  • มีOAI-PMH -interface เพื่อดึงข้อมูลเพจที่ได้รับการแก้ไขตั้งแต่เวลาที่กำหนดเป็นประจำ สำหรับโครงการ Wikimedia อินเทอร์เฟซนี้ไม่เปิดเผยต่อสาธารณะ OAI-PMH มีรูปแบบเสื้อคลุมรอบๆ บทความที่ส่งออกจริง
  • ใช้Python Wikipedia Robot Framework สิ่งนี้จะไม่อธิบายที่นี่

โดยค่าเริ่มต้นจะรวมเฉพาะเวอร์ชันปัจจุบันของเพจเท่านั้น คุณสามารถเลือกรับเวอร์ชันทั้งหมดพร้อมวันที่ เวลา ชื่อผู้ใช้ และแก้ไขข้อมูลสรุปได้

นอกจากนี้ คุณสามารถคัดลอกฐานข้อมูล SQL นี่คือวิธีการทิ้งฐานข้อมูลก่อนมีเดียวิกิ 1.5 และจะไม่อธิบายเพิ่มเติมที่นี่

ใช้ 'พิเศษ:ส่งออก'

ในการส่งออกทุกหน้าของเนมสเปซเป็นต้น

1. รับชื่อหน้าที่จะส่งออก

  • ไปที่พิเศษ:ทุกหน้าและเลือกเนมสเปซที่ต้องการ
  • คัดลอกรายชื่อเพจไปยังโปรแกรมแก้ไขข้อความ
  • ใส่ชื่อหน้าทั้งหมดแยกบรรทัด
  • นำหน้าเนมสเปซของชื่อเพจ (เช่น 'Help:Contents') เว้นแต่เนมสเปซที่เลือกจะเป็นเนมสเปซหลัก

2. ดำเนินการส่งออก

  • ไปที่พิเศษ:ส่งออกและวางชื่อเพจทั้งหมดของคุณลงในกล่องข้อความ ตรวจสอบให้แน่ใจว่าไม่มีบรรทัดว่าง
  • คลิก 'ส่งคำถาม'
  • บันทึก XML ที่เป็นผลลัพธ์ลงในไฟล์โดยใช้เครื่องมือบันทึกของเบราว์เซอร์

และในที่สุดก็...

  • เปิดไฟล์ XML ในโปรแกรมแก้ไขข้อความ เลื่อนไปที่ด้านล่างเพื่อตรวจสอบข้อความแสดงข้อผิดพลาด

ตอนนี้คุณสามารถใช้ไฟล์ XML นี้เพื่อดำเนินการนำเข้า

กำลังส่งออกประวัติเต็ม

ช่องทำเครื่องหมายใน อินเทอร์เฟซ พิเศษ:ส่งออกจะเลือกว่าจะส่งออกประวัติฉบับเต็ม (บทความทุกเวอร์ชัน) หรือบทความเวอร์ชันล่าสุด ส่งคืนการแก้ไขสูงสุด 1,000 ครั้ง การแก้ไขอื่นๆ สามารถขอได้ตามรายละเอียดใน MW:Parameters to Special : Export

รูปแบบการส่งออก

รูปแบบของไฟล์ XML ที่คุณได้รับจะเหมือนกันทุกประการ รูปแบบนี้ ได้รับการประมวลผลในXML Schemaที่http://www.mediawiki.org/xml/export-0.6.xsd รูปแบบนี้ไม่ได้มีไว้สำหรับดูในเว็บเบราว์เซอร์ แม้ว่าบางเบราว์เซอร์จะแสดง XML ที่พิมพ์อย่างสวยงามพร้อมลิงก์ "+" และ "-" เพื่อดูหรือซ่อนส่วนที่เลือก อีกวิธีหนึ่งคือสามารถดูซอร์ส XML ได้โดยใช้คุณลักษณะ "ดูซอร์ส" ของเบราว์เซอร์หรือหลังจากบันทึกไฟล์ XML ในเครื่องด้วยโปรแกรมที่เลือก หากคุณอ่านซอร์ส XML โดยตรง การค้นหาข้อความวิกิจริงก็ไม่ใช่เรื่องยาก หากคุณไม่ได้ใช้ตัวแก้ไข XML พิเศษ "<" และ ">" จะปรากฏเป็น < และ > เพื่อหลีกเลี่ยงความขัดแย้งกับแท็ก XML เพื่อหลีกเลี่ยงความกำกวม "&" จะถูกเข้ารหัสเป็น "&"

ในเวอร์ชันปัจจุบัน รูปแบบการส่งออกไม่มีการแทนที่ XML ของมาร์กอัปวิกิ (ดูWikipedia DTDสำหรับข้อเสนอที่เก่ากว่า หรือWiki Markup Language ) คุณจะได้รับข้อความวิกิเมื่อแก้ไขบทความเท่านั้น (หลังจากส่งออก คุณสามารถใช้parsers อื่นเพื่อแปลง wikitext เป็นรูปแบบอื่น)

ตัวอย่าง

  <mediawiki  xml:lang= "en" > 
    <page> 
      <title> ชื่อหน้า</title> 
      <!-- รหัสเนมสเปซของหน้า --> 
      <ns> 0 </ns> 
      <id> 2 </id> 
      <! -- หากหน้าเป็นการเปลี่ยนเส้นทาง องค์ประกอบ "redirect" จะมีชื่อของหน้าเปลี่ยนเส้นทางไปที่ --> 
      <redirect  title= "Redirect page title"  /> 
      <restrictions> edit=sysop:move=sysop </restrictions> 
      <revision> 
        <ประทับเวลา> 2001-01-15T13:15:00Z </timestamp> 
        <ผู้ร่วมให้ข้อมูล> 
          <ชื่อผู้ใช้>Foobar </username> 
          <id> 65536 </id> 
        </contributor>
        <ความคิดเห็น>ฉันมีเรื่องจะพูดคำเดียว! </comment> 
        <text> [[ข้อความ]] จำนวนมากที่นี่ </text> 
        <เล็กน้อย /> 
      </revision> 
      <revision> 
        <timestamp> 2001-01-15T13:10:27Z </timestamp> 
        <contributor><ip> 10.0.0.2 </ip></contributor> 
        <comment >ใหม่! </comment> 
        <text> [[แก้ไข]] ก่อนหน้านี้ </text> 
      </revision> 
      <revision> 
        <!-- ลบตัวอย่างการแก้ไข --> 
        <id> 4557485 </id> 
        <parentid> 1243372 <
        
        <contributor  delete= "deleted"  /> 
        <model > ข้อความวิ กิ < /model> 
        <format> text/x-wiki </format> 
        <text  delete= "deleted"  /> 
        <sha1/> 
      </revision> 
    </page>
    
    <page> 
      <title> Talk:Page title </title> 
      <revision> 
        <timestamp> 2001-01-15T14:03:00Z </timestamp> 
        <contributor><ip> 10.0.0.2 </ip></contributor> 
        <comment>เฮ้</comment> 
        <text>ทำไมคุณถึงล็อกหน้า??!!! ฉันกำลังแก้ไขกระตุกนั้น</text> 
      </revision> 
    </page> 
  </mediawiki>

DTD

นี่คือ รูปแบบข้อกำหนดประเภทเอกสารสั้น ๆ ที่ไม่เป็นทางการ หากคุณไม่รู้ว่า DTD คืออะไร ให้ข้ามไป

<!ELEMENT mediawiki (siteinfo?,page*)> 
<!-- version มีหมายเลขรุ่นของรูปแบบ (ปัจจุบันคือ 0.3) --> 
<!ATTLIST มีเดีย วิกิ 
  รุ่น CDATA #REQUIRED 
  xmlns CDATA #FIXED "http://www. mediawiki.org/xml/export-0.3/" 
  xmlns:xsi CDATA #FIXED "http://www.w3.org/2001/XMLSchema-instance" 
  xsi:schemaLocation CDATA #FIXED 
    "http://www.mediawiki.org" /xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" 
> 
<!ELEMENT siteinfo (sitename,base,generator,case,namespaces)> 
<!ELEMENT sitename (#PCDATA) >       <!-- ชื่อของวิกิ --> 
<!ELEMENT ฐาน (#PCDATA)>           <!-- url ของหน้าหลัก --> 
<!ตัวสร้างองค์ประกอบ (#PCDATA)>      <!-- สตริงเวอร์ชันมีเดียวิกิ -->
<!ELEMENT case (#PCDATA)>           <!-- วิธีจัดการกับกรณีในชื่อเพจ --> 
   <!-- ค่าที่เป็นไปได้: 'first-letter' | ตัวเลือก 'ไม่คำนึงถึงขนาดตัว พิมพ์
                         ' 'ไม่คำนึงถึงขนาดตัวพิมพ์' สงวนไว้สำหรับอนาคต --> 
<!ELEMENT เนมสเปซ (เนมสเปซ+)>  <!-- รายการเนมสเปซและคำนำหน้า --> 
  <!ELEMENT เนมสเปซ (#PCDATA)>      <!- - มีคำนำหน้าเนมสเปซ --> 
  <!ATTLIST คีย์เนมสเปซ CDATA #REQUIRED>  <!-- หมายเลขเนมสเปซภายใน --> 
<!ELEMENT หน้า (ชื่อ, id?, ข้อ จำกัด ?, (แก้ไข | อัปโหลด)*)> 
  <!ELEMENT title (#PCDATA)>          <!-- ชื่อเรื่องที่มีเนมสเปซนำหน้า --> 
  <!ELEMENT id (#PCDATA)>  
  <!  
<!ELEMENT การแก้ไข (id?,timestamp,contributor, minor?,comment,text)> 
  <!ELEMENT timestamp (#PCDATA)>      <!-- ตามมาตรฐาน ISO8601 --> 
  <!ELEMENT minor EMPTY>              <!-- minor flag --> 
  <!ELEMENT ความคิดเห็น (#PCDATA)>  
  <!ELEMENT text (#PCDATA)>           <!-- Wikisyntax --> 
  <!ATTLIST text xml:space CDATA #FIXED "preserve"> 
<!ELEMENT contributor (( username,id) | ip)> 
  <!ELEMENT username (#PCDATA)> 
  <!ELEMENT ip (#PCDATA)> 
<!ELEMENT upload (timestamp, contributor,comment?,filename,src,size)> 
  <!ELEMENT filename () #PCDATA)> 
  <!ELEMENT src (#PCDATA)> 
  <!ELEMENT ขนาด (#PCDATA)>

กำลังประมวลผลการส่งออก XML

เครื่องมือจำนวนมากสามารถประมวลผล XML ที่ส่งออกได้ หากคุณประมวลผลหน้าจำนวนมาก (เช่น การถ่ายโอนข้อมูลทั้งหมด) คุณอาจไม่สามารถรับเอกสารในหน่วยความจำหลักได้ ดังนั้น คุณจะต้องใช้ตัวแยกวิเคราะห์ตามSAXหรือวิธีอื่นๆ ที่ขับเคลื่อนด้วยเหตุการณ์

คุณยังสามารถใช้นิพจน์ทั่วไปเพื่อประมวลผลส่วนต่างๆ ของโค้ด XML ได้โดยตรง วิ่งเร็วแต่ดูแลรักษายาก

โปรดระบุวิธีการและเครื่องมือสำหรับการประมวลผลการส่งออก XML ที่นี่:

รายละเอียดและคำแนะนำการปฏิบัติ

  • ในการกำหนดเนมสเปซของเพจ คุณต้องจับคู่ชื่อเรื่องกับคำนำหน้าที่กำหนดไว้ใน

/mediawiki/siteinfo/namespaces/namespace

  • ข้อจำกัดที่เป็นไปได้คือ
    • sysop (หน้าป้องกัน)

ดูสิ่งนี้ด้วย

ความช่วยเหลือเฉพาะวิกิพีเดีย