ヘルプ:エクスポート

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

Wikiページを特別なXML形式でエクスポートして、別のMediaWikiインストールにインポートしたり、コンテンツの分析などに使用したりできます。ページを除く他のすべての情報をエクスポートするためのm:Syndicationフィード、およびページのインポートに関するヘルプ:インポートも参照してください。

エクスポートする方法

ページをエクスポートするには、少なくとも6つの方法があります。

  • Special:Exportのボックスに記事の名前を貼り付けるか、 https ://en.wikipedia.org/wiki/Special:Export / FULLPAGENAMEを使用します
  • を使用しaction=rawます。(これは、ページのwikitextのみをフェッチし、以下で説明するXML形式はフェッチしません。)例:https ://en.wikipedia.org/w/index.php?title = Wikipedia&action = raw ..使用することが重要であり、使用/w/index.php?title=PAGENAME&action=rawしないことが重要です/wiki/PAGENAME?action=raw(を参照)。 Phab T126183
  • APIを使用して、XMLまたはJSONパッケージでデータをフェッチします
  • バックアップスクリプトdumpBackup.phpは、すべてのwikiページをXMLファイルにダンプします。dumpBackup.phpはMediaWiki1.5以降でのみ機能します。このスクリプトを実行するには、サーバーに直接アクセスする必要があります。mediawikiプロジェクトのダンプは(多かれ少なかれ)http://download.wikipedia.orgで定期的に利用可能になっています。詳細については、http://www.mediawiki.org/wiki/Manual:DumpBackup.phpをご覧ください。
  • 特定の時間以降に変更されたページを定期的にフェッチするためのOAI-PMHインターフェイスがあります。ウィキメディアプロジェクトの場合、このインターフェースは公開されていません。OAI-PMHには、実際にエクスポートされた記事のラッパー形式が含まれています。
  • Python Wikipedia RobotFrameworkを使用しますこれについてはここでは説明しません。

デフォルトでは、ページの現在のバージョンのみが含まれます。オプションで、日付、時刻、ユーザー名、編集の概要を含むすべてのバージョンを取得できます。

さらに、SQLデータベースをコピーできます。これは、MediaWiki 1.5より前にデータベースのダンプが利用可能になった方法であり、ここではこれ以上説明しません。

'Special:Export'を使用する

たとえば 、名前空間のすべてのページをエクスポートします。

1.エクスポートするページの名前を取得します

  • Special:Allpagesに移動し、目的の名前空間を選択します。
  • ページ名のリストをテキストエディタにコピーします
  • すべてのページ名を別々の行に配置します
  • 選択した名前空間がメインの名前空間でない限り、名前空間の前にページ名を付けます(例:「Help:Contents」)。

2.エクスポートを実行します

  • Special:Exportに移動し、すべてのページ名をテキストボックスに貼り付けて、空の行がないことを確認します。
  • [クエリを送信]をクリックします
  • ブラウザの保存機能を使用して、結果のXMLをファイルに保存します。

そして最後に...

  • XMLファイルをテキストエディタで開きます。一番下までスクロールして、エラーメッセージを確認します

これで、このXMLファイルを使用してインポートを実行できます。

完全な履歴のエクスポート

Special:Exportインターフェースのチェックボックスは、完全な履歴(記事のすべてのバージョン)をエクスポートするか、最新バージョンの記事をエクスポートするかを選択します。最大1000のリビジョンが返されます。MW:Parameters to Special:Exportで詳しく説明されているように、他のリビジョンをリクエストできます

エクスポート形式

受け取るXMLファイルの形式はすべての点で同じです。この形式は、 http://www.mediawiki.org/xml/export-0.6.xsdのXMLスキーマで体系化されていますこの形式は、Webブラウザーでの表示を目的としたものではありませんが、一部のブラウザーでは、選択した部分を表示または非表示にするための「+」および「-」リンクを含むきれいに印刷されたXMLが表示されます。または、ブラウザの「ソースの表示」機能を使用して、またはXMLファイルをローカルに保存した後、選択したプログラムを使用してXMLソースを表示することもできます。XMLソースを直接読んだ場合、実際のウィキテキストを見つけるのは難しくありません。特別なXMLエディタを使用しない場合、「<」および「>」は&lt;として表示されます。および&gt;、XMLタグとの競合を回避するため。あいまいさを避けるために、「&」は「&amp;」としてコード化されます。

現在のバージョンでは、エクスポート形式にwikiマークアップのXML置換は含まれていません(古い提案についてはWikipedia DTD、またはWikiマークアップ言語を参照してください)。記事を編集するときに取得するウィキテキストのみを取得します。(エクスポート後、代替パーサーを使用してウィキテキストを他の形式に変換できます)

  <mediawiki  xml:lang = "en" > 
    <page> 
      <title>ページタイトル</ title> 
      <!-ページ名前空間コード-> 
      <ns> 0 </ ns> 
      <id> 2 </ id> 
      <! -ページがリダイレクトの場合、要素「redirect」には、リダイレクト先のページのタイトルが含まれます-> 
      <redirect  title = "Redirect page title"  /> 
      <restrictions> edit = sysop:move = sysop </ thresholds> 
      <revision> 
        <timestamp> 2001-01-15T13:15:00Z </ timestamp> 
        <contributor> 
          <username>Foobar </ username> 
          <id> 65536 </ id> 
        </ Contributor>
        <コメント>言いたいことが一つだけあります!</ comment> 
        <text>ここにたくさんの[[text]]があります。</ text> 
        <minor  /> 
      </ Revision> 
      <revision> 
        <timestamp> 2001-01-15T13:10:27Z </ timestamp> 
        <contributor> <ip> 10.0.0.2 </ ip> </ contributor> 
        <コメント> new!</ comment> 
        <text>以前の[[revision]]。</ text> 
      </ Revision> 
      <revision> 
        <!-削除されたリビジョンの例-> 
        <id> 4557485 </ id> 
        <parentid> 1243372 <
        
        <寄稿者 deleted = "deleted"  /> 
        <model> wikitext </ model> 
        <format> text / x-wiki </ format> 
        < textdeleted  = "deleted"  /> 
        <sha1 /> 
      </ Revision> 
    </ page>
    
    <page> 
      <title>トーク:ページタイトル</ title> 
      <revision> 
        <timestamp> 2001-01-15T14:03:00Z </ timestamp> 
        <contributor> <ip> 10.0.0.2 </ ip> </ contributor> 
        <コメント>ちょっと</コメント> 
        <テキスト>ページをロックする理由?? !!! 私はそのジャークを編集していました</ text> 
      < / Revision> 
    </ page> 
  </ mediawiki>

DTD

これは、非公式の短い文書型定義バージョンの形式です。DTDが何であるかわからない場合は、無視してください。

<!ELEMENT mediawiki(siteinfo?、page *)> 
<!-バージョンにはフォーマットのバージョン番号が含まれています(現在は0.3)-> 
<!
  ATTLISTmediawikiバージョンCDATA#REQUIRED 
  xmlns CDATA #FIXED "http:// www。 mediawiki.org/xml/export-0.3/ " 
  xmlns:xsi CDATA #FIXED" http://www.w3.org/2001/XMLSchema-instance " 
  xsi:schemaLocation CDATA #FIXED 
    " http://www.mediawiki.org /xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd " 
> 
<!ELEMENT siteinfo(sitename、base、generator、case、namespaces)> 
<!ELEMENT sitename(#PCDATA) >       <!-wikiの名前-> 
<!ELEMENTベース(#PCDATA)>           <!-メインページのURL-> 
<!ELEMENTジェネレーター(#PCDATA)>      <!-MediaWikiバージョン文字列->
<!ELEMENT case(#PCDATA)>           <!-ページ名のケースの処理方法-> 
   <!-可能な値: 'first-letter' | 'case-sensitive''case 
                         -insensitive'オプションは、将来のために予約されています-> 
<!ELEMENT名前空間(namespace +)>  <!-名前空間とプレフィックスのリスト-> 
  <!ELEMENT名前空間(#PCDATA)>      <!- -名前空間プレフィックスが含まれています-> 
  <!ATTLIST名前空間キーCDATA #REQUIRED>  <!-内部名前空間番号-> 
<!ELEMENTページ(title、id?、restrictions?、(revision | upload)*)> 
  <!ELEMENT title(#PCDATA)>          <!-名前空間プレフィックス付きのタイトル-> 
  <!ELEMENT id(#PCDATA)>  
  <!  
<!ELEMENTリビジョン(id?、timestamp、contributor、minor?、comment、text)> 
  <!ELEMENTタイムスタンプ(#PCDATA)>      <!-ISO8601に準拠-> 
  <!ELEMENTマイナーEMPTY>              <!-マイナーフラグ-> 
  <!ELEMENTコメント(#PCDATA)>  
  <!ELEMENT text(#PCDATA)>           <!-Wikisyntax-> 
  <!ATTLIST text xml:space CDATA #FIXED "preserve"> 
<!ELEMENT contributor(( username、id)| ip)> 
  <!ELEMENT username(#PCDATA)> 
  <!ELEMENT ip(#PCDATA)> 
<!ELEMENT upload(timestamp、contributor、comment?、filename、src、size)> 
  <!ELEMENT filename( #PCDATA)> 
  <!ELEMENT src(#PCDATA)> 
  <!ELEMENTサイズ(#PCDATA)>

XMLエクスポートの処理

多くのツールは、エクスポートされたXMLを処理できます。多数のページ(たとえば、ダンプ全体)を処理する場合、メインメモリでドキュメントを取得できない可能性があるため、 SAXまたはその他のイベント駆動型メソッド に基づくパーサーが必要になります。

正規表現を使用して、XMLコードの一部を直接処理することもできます。これらは高速で実行されますが、保守が困難です。

XMLエクスポートを処理するためのメソッドとツールをここにリストしてください:

詳細と実践的なアドバイス

  • ページの名前空間を決定するには、そのタイトルをで定義されたプレフィックスと一致させる必要があります。

/ mediawiki / siteinfo / namespaces / namespace

  • 考えられる制限は
    • sysop(保護されたページ)

も参照してください

ウィキペディア固有のヘルプ