ウィキペディア:データベースのダウンロード
読者のFAQ |
---|
![]() |
ウィキペディアは、関心のあるユーザーに利用可能なすべてのコンテンツの無料コピーを提供しています。これらのデータベースは、ミラーリング、個人使用、非公式バックアップ、オフライン使用、またはデータベースクエリ(Wikipedia:Maintenanceなど)に使用できます。すべてのテキストコンテンツは、クリエイティブ・コモンズ表示-継承3.0ライセンス(CC-BY-SA)およびGNU Free Documentation License(GFDL)の下でマルチライセンスされています。画像やその他のファイルは、説明ページで詳しく説明されているように、さまざまな条件で利用できます。これらのライセンスへの準拠に関するアドバイスについては、Wikipedia:Copyrightsを参照してください。
オフラインのウィキペディアリーダー
オフラインでウィキペディアを読む多くの方法のいくつか:
- XOWA:(§XOWA)
- Kiwix:(§Kiwix)
- WikiTaxi:§WikiTaxi(Windows用)
- aarddict:§Aard辞書
- BzReader:§BzReaderおよびMzReader(Windowsの場合)
- PDF、OpenDocumentなどとして選択されたウィキペディアの記事:ウィキペディア:本
- 印刷された本として選択されたウィキペディアの記事:ヘルプ:本/印刷された本
- 電子書籍としてのWiki:§電子書籍
- WikiFilter:§WikiFilter
- ロックボックスに関するウィキペディア:§ロックボックスのウィキビューアー
それらのいくつかはモバイルアプリケーションです–「ウィキペディアモバイルアプリケーションのリスト」を参照してください。
どこで入手できますか?
英語版ウィキペディア
- :任意のウィキメディア財団のプロジェクトからのダンプダンプ
.wikimedia とインターネットアーカイブ.ORG - SQLおよびXMLでの英語版ウィキペディアのダンプ:dumps
.wikimedia およびインターネットアーカイブ.org / enwiki / - BitTorrentクライアントを使用してデータダンプをダウンロードします(トレントには多くの利点があり、サーバーの負荷が軽減され、帯域幅のコストが節約されます)。
- pages-articles-multistream.xml.bz2 –現在のリビジョンのみで、トークページやユーザーページはありません。これはおそらくあなたが望むものであり、約18 GB圧縮されています(解凍すると78 GB以上に拡張されます)。
- pages-meta-current.xml.bz2 –現在のリビジョンのみ、すべてのページ(トークを含む)
- abstract.xml.gz –ページの要約
- all-titles-in-ns0.gz –記事のタイトルのみ(リダイレクトあり)
- ページとリンクのSQLファイルも利用できます
- すべてのリビジョン、すべてのページ:これらのファイルは数テラバイトのテキストに拡張されます。この量のデータに対応できることがわかっている場合にのみ、これらをダウンロードしてください。最新のダンプに移動し、名前に「pages-meta-history」が含まれているすべてのファイルを探します。
- 特定のカテゴリや記事のリストなど、データベースのサブセットをXML形式でダウンロードするには、Special:Exportを参照してください。その使用法については、Help:Exportで説明されています。
- Wikiフロントエンドソフトウェア:MediaWiki [1]。
- データベースバックエンドソフトウェア:MySQL。
- 画像ダンプ:以下を参照してください。
マルチストリームを取得する必要がありますか?
TL; DR: マルチストリームバージョンを入手してください!(および対応するインデックスファイル、 pages-articles-multistream-index.txt.bz2)
pages-articles.xml.bz2とpages-articles-multistream.xml.bz2の両方に同じxmlコンテンツが含まれています。したがって、どちらかを解凍すると、同じデータが得られます。しかし、マルチストリームを使用すると、すべてを解凍せずにアーカイブから記事を取得することができます。マルチストリームと非マルチストリームには同じxmlが含まれているため、リーダーがこれをサポートしていない場合でも、リーダーはこれを処理する必要があります。マルチストリームの唯一の欠点は、それがわずかに大きいことです。より小さな非マルチストリームアーカイブを取得したくなるかもしれませんが、それを解凍しないと、これは役に立ちません。また、元のサイズの5〜10倍に開梱されます。ペニー賢い、ポンド愚か。マルチストリームを取得します。
マルチストリームダンプファイルには、1つのストリームを含むバニラファイルとは対照的に、1つのファイルに連結された複数のbz2 'ストリーム'(bz2ヘッダー、本文、フッター)が含まれることに注意してください。マルチストリームダンプ内の個別の「ストリーム」(または実際にはファイル)には、最後のページを除いて100ページが含まれています。
マルチストリームの使い方は?
マルチストリームの場合、インデックスファイルpages-articles-multistream-index.txt.bz2を取得できます。このインデックスの最初のフィールドは、圧縮されたアーカイブページ(articles-multistream.xml.bz2)を検索するバイト数です。2番目は記事ID、3番目は記事のタイトルです。
インデックスにあるバイトオフセットを使用して、ddを使用してアーカイブから小さな部分を切り取ります。次に、bzip2で解凍するか、bzip2recoverを使用して、最初のファイルで記事IDを検索します。
このようなマルチストリームファイルとPythonで解凍する方法については、https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressorを参照してください。古い動作玩具については、https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txtおよび関連ファイルも参照してください。
他の言語
でダンプ
アップロードされたファイル(画像、オーディオ、ビデオなど)はどこにありますか?
画像やその他のアップロードされたメディアは、ウィキメディアサーバーから直接提供されるだけでなく、ミラーからも利用できます。一括ダウンロードは(2013年9月現在)ミラーから利用できますが、ウィキメディアサーバーから直接提供することはできません。現在のミラーのリストを参照してください。ミラーからrsyncしてから、upload.wikimedia.orgから不足している画像を入力する必要があります。からダウンロードするupload.wikimedia.org
ときは、1秒あたり1キャッシュミスに制限する必要があり(応答のヘッダーをチェックしてヒットかミスかを確認し、ミスが発生した場合は元に戻すことができます)、1つまたは2つ以上使用しないでください同時HTTP接続。いずれにせよ、正確なユーザーエージェントがいることを確認してください連絡先情報(メールアドレス)を含む文字列。問題が発生した場合にopsが連絡できるようにします。 mediawiki APIからチェックサムを取得し、それらを検証する必要があります。APIエチケットそれらのすべてではないが適用されますが、ページが(例えばupload.wikimedia.orgはMediaWikiのではないので、何も存在しない、いくつかのガイドラインが含まれているmaxlag
パラメータ)。
ほとんどの記事のテキストとは異なり、画像は必ずしもGFDL&CC-BY-SA-3.0でライセンスされているわけではありません。それらは、パブリックドメインで、フェアユースであると信じられている多くの無料ライセンスの1つ、または著作権侵害(削除する必要があります)の下にある可能性があります。特に、ウィキペディアまたは同様の作品のコンテキスト外でのフェアユースの画像の使用は違法である可能性があります。ほとんどのライセンスに基づく画像には、クレジットと、場合によってはその他の添付の著作権情報が必要です。この情報は、dumps.wikimedia.orgから入手できるテキストダンプの一部である画像の説明ページに含まれています。結論として、これらの画像は自己責任でダウンロードしてください(法務)
圧縮ファイルの処理
圧縮されたダンプ・ファイルが大幅ので、取り上げる解凍された後、圧縮されている大規模なドライブスペースの量を。解凍プログラムの大規模なリストは、ファイルアーカイバの比較で説明されています。具体的には以下のプログラムが解凍bzip2のに使用することができ.bz2 .zipファイルと.7zファイル。
始まるのWindows XP、基本的な解凍プログラムは、zipファイルの解凍を可能にします。[1] [2]とりわけ、bzip2ファイルを解凍するために以下を使用できます。
- マッキントッシュ(マック)
- OS Xには、コマンドラインのbzip2ツールが付属しています。
- GNU / Linux
- ほとんどのGNU / Linuxディストリビューションには、コマンドラインbzip2ツールが付属しています。
- 一部のBSDシステムには、オペレーティングシステムの一部としてコマンドラインbzip2ツールが付属しています。OpenBSDのような他のものは、最初にインストールされなければならないパッケージとしてそれを提供します。
- ノート
- 一部の古いバージョンのbzip2は、2 GBを超えるファイルを処理できない場合があるため、問題が発生した場合は、最新バージョンを使用していることを確認してください。
- 一部の古いアーカイブは、PKZIP(最も一般的なWindows形式)と互換性のあるgzipで圧縮されています。
大きなファイルの処理
ファイルのサイズが大きくなると、コンピューティングデバイスの制限を超える可能性も高くなります。各オペレーティングシステム、ファイルシステム、ハードストレージデバイス、およびソフトウェア(アプリケーション)には、最大ファイルサイズ制限があります。これらはそれぞれ最大値が異なる可能性があり、それらすべての下限がストレージデバイスのファイルサイズ制限になります。
コンピューティングデバイスのソフトウェアが古いほど、システムのどこかに2GBのファイル制限がある可能性が高くなります。これは、ファイルのインデックス作成に32ビット整数を使用する古いソフトウェアが原因で、ファイルサイズが2 ^ 31バイト(2 GB)(符号付き整数の場合)または2 ^ 32(4 GB)(符号なし整数の場合)に制限されます。古いC プログラミングライブラリにはこの2GBまたは4GBの制限がありますが、新しいファイルライブラリは64ビット整数に変換されているため、最大2 ^ 63または2 ^ 64バイト(8または16 EB)のファイルサイズをサポートします。
大きなファイルのダウンロードを開始する前に、ストレージデバイスをチェックして、ファイルシステムがそのような大きなサイズのファイルをサポートできることを確認し、空き領域の量をチェックして、ダウンロードしたファイルを保持できることを確認します。
ファイルシステムの制限
ファイルシステムには、ファイルシステムのサイズ制限とファイルシステムの制限の2つの制限があります。一般に、ファイルサイズの制限はファイルシステムの制限よりも小さいため、ファイルシステムの制限が大きいほど重要なポイントになります。ユーザーの大部分は、ストレージデバイスのサイズまでファイルを作成できると想定していますが、想定が間違っています。たとえば、FAT32ファイルシステムとしてフォーマットされた16 GBのストレージデバイスには、1つのファイルに対して4GBのファイル制限があります。以下は、最も一般的なファイルシステムのリストです。詳細については、ファイルシステムの比較を参照してください。
- FAT16は、最大4GBのファイルをサポートします。FAT16は、小型のUSBドライブと2GB以下のすべてのSDカードの工場出荷時のフォーマットです。
- FAT32は、最大4GBのファイルをサポートします。FAT32は、より大きなUSBドライブと4GB以上のすべてのSDHCカードの工場出荷時のフォーマットです。
- exFATの支持体は、127までのファイルPB。exFATはすべてのSDXCカードの工場出荷時の形式ですが、ライセンスの問題により、ほとんどの種類のUNIXと互換性がありません。
- NTFSは、最大16TBのファイルをサポートします。NTFSは、Windows 2000、Windows XP、およびこれまでのすべての後継コンピュータを含む、最新のWindowsコンピュータのデフォルトのファイルシステムです。ファイルシステムがより大きなクラスターサイズでフォーマットされている場合、Windows8以降のバージョンはより大きなファイルをサポートできます。
- ReFSは、最大16EBのファイルをサポートします。
- マッキントッシュ(マック)
- HFS Plus(HFS +)は、Mac OS X 10.2+およびiOSで最大8EBのファイルをサポートします。HFS +は、デフォルトのファイルシステムだったOS Xの前にコンピュータのMacOSハイシエラそれが持つデフォルトとして置き換えられた2017年にAppleファイルシステム、APFS。
- ext2およびext3は、最大16 GBのファイルをサポートしますが、ブロックサイズが大きい場合は最大2TBです。詳細については、https://users.suse.com/~aj/linux_lfs.htmlを参照してください。
- ext4は、4 KBのブロックサイズを使用して、最大16TBのファイルをサポートします。(e2fsprogs-1.42(2012)で制限が削除されました)
- XFSは、最大8EBのファイルをサポートします。
- ReiserFSは、32ビットシステムで最大1 EB、8TBのファイルをサポートします。
- JFSは、最大4PBのファイルをサポートします。
- Btrfsは最大16EBのファイルをサポートします。
- NILFSは、最大8EBのファイルをサポートします。
- YAFFS2は最大2GBのファイルをサポートします
- ZFSは、最大16EBのファイルをサポートします。
- FreeBSDおよびその他のBSD
- Unixファイルシステム(UFS)は、最大8ZiBのファイルをサポートします。
オペレーティングシステムの制限
各オペレーティングシステムには、ファイルシステムまたは物理メディアに依存しないファイルサイズとドライブサイズの内部ファイルシステム制限があります。オペレーティングシステムにファイルシステムまたは物理メディアよりも低い制限がある場合、OSの制限が実際の制限になります。
- Windows 95、98、MEには、すべてのファイルサイズに対して4GBの制限があります。
- Windows XPには、すべてのファイルサイズに対して16TBの制限があります。
- Windows 7には、すべてのファイルサイズに対して16TBの制限があります。
- Windows 8、10、およびServer 2012には、すべてのファイルサイズに対して256TBの制限があります。
- 32ビットカーネル2.4.xシステムには、すべてのファイルシステムに対して2TBの制限があります。
- 64ビットカーネル2.4.xシステムには、すべてのファイルシステムに対して8EBの制限があります。
- オプションCONFIG_LBDのない32ビットカーネル2.6.xシステムには、すべてのファイルシステムに対して2TBの制限があります。
- オプションCONFIG_LBDを使用する32ビットカーネル2.6.xシステムおよびすべての64ビットカーネル2.6.xシステムには、すべてのファイルシステムに対して8ZBの制限があります。[3]
Google Androidは、基本制限を決定するLinuxに基づいています。
- 内部記憶装置:
- Android2.3以降はext4ファイルシステムを使用します。[4]
- Android 2.2以前では、YAFFS2ファイルシステムが使用されています。
- 外部ストレージスロット:
- すべてのAndroidデバイスは、FAT16、FAT32、ext2ファイルシステムをサポートする必要があります。
- Android 2.3以降は、ext4ファイルシステムをサポートしています。
- Apple iOS(iOSデバイスのリストを参照)
- すべてのデバイスは、内部ストレージ用にHFS Plus(HFS +)をサポートしています。外部ストレージスロットを備えたデバイスはありません。10.3以降の実行上のデバイスのAppleファイルシステムを8 EBの最大ファイルサイズをサポートしています。
チップ
破損したファイルを検出する
MD5の合計(ダウンロードディレクトリ内のファイルで提供される)をチェックして、ダウンロードが完全で正確であることを確認すると便利です。これは、ダウンロードしたファイルに対して「md5sum」コマンドを実行することで確認できます。それらのサイズを考えると、これは計算に時間がかかる場合があります。ファイルの保存方法の技術的な詳細により、ファイルサイズはファイルシステムごとに異なる方法で報告される可能性があり、必ずしも信頼できるとは限りません。また、ダウンロード中に破損が発生した可能性がありますが、これは発生する可能性は低いです。
外付けUSBドライブの再フォーマット
Wikipedia Dumpファイルを1台のコンピューターにダウンロードし、外付けUSBフラッシュドライブまたはハードドライブを使用して他のコンピューターにコピーする場合は、4GBのFAT32ファイルサイズの制限が発生します。この制限を回避するには、4GBを超えるUSBドライブをより大きなファイルサイズをサポートするファイルシステムに再フォーマットします。Windows XP / Vista / 7コンピュータのみで作業している場合は、USBドライブをNTFSファイルシステムに再フォーマットします。
LinuxとUnix
2 GBの制限に達していると思われる場合は、wgetバージョン1.10以降、cURLバージョン7.11.1-1以降、または最新バージョンのlynx(-dumpを使用)を使用してみてください。また、ダウンロードを再開することもできます(たとえば、wget -c)。
実行時にwikipedia.orgからデータを取得しないのはなぜですか?
ある時点でウィキペディアからの情報を表示するソフトウェアを構築しているとします。プログラムでライブバージョンとは異なる方法で情報を表示する場合は、完成したHTMLではなく、入力に使用するwikicodeが必要になる可能性があります。
また、すべてのデータを取得したい場合は、可能な限り最も効率的な方法でデータを転送することをお勧めします。wikipedia.orgサーバーは、ウィキコードをHTMLに変換するためにかなりの作業を行う必要があります。それはあなたとwikipedia.orgサーバーの両方にとって時間がかかるので、単にすべてのページをスパイダーすることは行く方法ではありません。
XMLの記事に一度に1つずつアクセスするには、記事のSpecial:Export / Titleにアクセスします。
これについて詳しくは、Special:Exportをご覧ください。
ウィキメディアサーバーから動的にロードされるウィキペディアのライブミラーは禁止されていることに注意してください。ウィキペディア:ミラーとフォークを参照してください。
Webクローラーは使用しないでください
大量の記事をダウンロードするためにWebクローラーを使用しないでください。サーバーを積極的にクロールすると、ウィキペディアの速度が大幅に低下する可能性があります。
ブロックされたクローラーメールのサンプル
- IPアドレスnnn.nnn.nnn.nnnは、wikipedia.orgアドレスから毎秒最大50ページを取得していました。リクエスト間の少なくとも1秒の遅延のようなものは合理的です。その設定を尊重してください。あなたはそれを少し超えていなければならない場合は、唯一の私たちのサイトの負荷のグラフに示す少なくとも繁忙時にそう統計
.wikimedia 。 1秒に1回のヒットでサイト全体をクロールするには、数週間かかることに注意してください。発信元IPは現在ブロックされているか、まもなくブロックされます。ブロックを解除したい場合は、お問い合わせください。それを回避しようとしないでください-私たちはあなたのIP範囲全体をブロックするだけです。の.org / EN / ChartsWikipediaZZ の.htm
- コンテンツをより効率的に取得する方法に関する情報が必要な場合は、MySQLにロードして、都合のよい速度でローカルにクロールできる毎週のデータベースダンプなど、さまざまな方法を提供しています。インフラストラクチャが整ったら、何度でもそれを実行できるツールも利用できます。
- 電子メールで返信する代わりに、irc.libera.chatの#mediawiki connectにアクセスして、オプションについてチームと話し合うことをお勧めします。
現在のデータベースダンプでSQLクエリを実行する
Quarryを使用して現在のデータベースダンプに対してSQLクエリを実行できます(無効になっているSpecial:Asksqlページの代わりとして)。
データベーススキーマ
SQLスキーマ
MediaWikiデータベースを初期化するために使用されるSQLファイルはここにあります。
XMLスキーマ
各ダンプのXMLスキーマは、ファイルの先頭で定義されています。また、MediaWikiエクスポートヘルプページでも説明されています。
スクリプトで使用するためにダンプを解析するのに役立ちます
- Wikipedia:Computerヘルプデスク/ ParseMediaWikiDumpは、XMLダンプを解析できるPerl Parse :: MediaWikiDumpライブラリについて説明しています。
- ウィキペディアプリプロセッサ(wikiprep.pl)は、生のXMLダンプを前処理し、リンクテーブル、カテゴリ階層を構築し、各記事のアンカーテキストを収集するPerlスクリプトです。
- ウィキペディアSQLダンプパーサーは、MySQLデータベースを使用せずにMySQLダンプを読み取るための.NETライブラリです。
- WikiDumpParser –データベースダンプを解析するための.NETCoreライブラリ。
- Dictionary Builderは、XMLダンプを解析し、ファイル内のエントリを抽出できるRustプログラムです。
- ウィキペディアのダンプを解析するためのスクリプト–ウィキペディアのダンプからsql.gzファイルを解析するためのPythonベースのスクリプト。
- parse-mediawiki-sql –最小限のメモリ割り当てでSQLダンプファイルをすばやく解析するためのRustライブラリ
ウィキペディアの現在のデータベースダンプでHadoopMapReduceを実行する
現在のデータベースダンプに対してHadoopMapReduceクエリを実行できますが、各<page> </ page>を単一のマッパー入力にするためにInputRecordFormatの拡張が必要になります。Javaメソッドのワーキングセット(jobControl、mapper、reducer、およびXmlInputRecordFormat)は、ウィキペディアのHadoopで入手できます。
ダンプをMySQLにインポートするのに役立ちます
見る:
ミラーリングまたはCD配布用の静的HTMLツリーダンプ
MediaWiki 1.5には、WikiをHTMLにダンプし、ライブWikiで使用されているのと同じパーサーでHTMLをレンダリングするルーチンが含まれています。次のページに記載されているように、これらのダンプの1つを変更せずにWebに配置すると、商標違反になります。これらは、イントラネットまたはデスクトップインストールでのプライベート表示を目的としています。
- Mediawikiで従来のウェブサイトをドラフトしてHTML形式にダンプしたい場合は、User:Connellyによるmw2htmlを試してみてください。
- 静的HTMLツールへのダンプの開発を支援したい場合は、開発者のメーリングリストにメモを送ってください。
- 静的HTMLダンプはここで利用できるようになりましたが、最新ではありません。
参照:
- mw:Alternative parsersは、静的HTMLダンプを取得するためのその他の機能しないオプションをリストします。
- ウィキペディア:スナップショット
- ウィキペディア:TomeRaiderデータベース
Kiwix
Kiwixは、これまでのウィキペディアの最大のオフライン配布です。オフラインリーダーとして、Kiwixはzimファイルであるコンテンツのライブラリを操作します。任意のWikimediaプロジェクト(任意の言語のWikipedia、Wiktionary、Wikisourceなど)、およびTED Talks、PhET Interactive Maths&Physicsを選択できます。シミュレーション、グーテンベルクプロジェクトなど。
これは無料でオープンソースであり、現在次の場所からダウンロードできます。
...また、ChromeおよびFirefoxブラウザーの拡張機能、サーバーソリューションなど。完全なKiwixポートフォリオについては、公式Webサイトを参照してください。
Aard辞書/ Aard 2
Aard Dictionaryは、オフラインのWikipediaリーダーです。画像はありません。Windows、Mac、Linux、Android、Maemo用のクロスプラットフォーム。ルート権限を取得されたNookおよびSonyPRS-T1eBooksリーダーで実行されます。
また、後継のAard2もあります。
電子書籍
ウィキ-として、電子ブックストアは、電子ブック・リーダーのためのグレースケール画像とWikipediaの記事(2013)の大規模なセットから作成された電子書籍を提供します。
RockboxのWikiviewer
Rockbox用のwikiviewerプラグインを使用すると、変換されたWikipediaダンプを多くのRockboxデバイスで表示できます。http://www.rockbox.org/tracker/4755で入手可能な手順を使用して、wikiダンプのカスタムビルドと変換が必要です。変換により、ファイルが再圧縮され、1 GBのファイルとインデックスファイルに分割されます。これらはすべて、デバイスまたはmicrosdカードの同じフォルダーにある必要があります。
古いゴミ捨て場
- ウィキメディアによって作成されたウィキペディアの静的バージョン:http://static.wikipedia.org/2013年2月11日-これは明らかに現在オフラインです。内容はありませんでした。
- Wiki2static(2005年10月現在サイトダウン[アップデート])は、画像、検索機能、アルファベット順のインデックスを含むhtmlダンプを生成するためにUser:Alfioによって設定された実験的なプログラムでした。リンク先のサイトでは、実験的なダンプとスクリプト自体をダウンロードできます。例として、英語版ウィキペディア2004年4月24日、シンプルウィキペディア2004年5月1日(古いデータベース)形式および英語版ウィキペディア04年7月24日シンプルウィキペディア2004年7月24日、ウィキペディアフランセ27ジュレット2004(新しい形式)のコピーを生成するために使用されました。BozMoはバージョンを使用して、固定参照で定期的な静的コピーを生成します (2017年10月現在サイトダウン)。
ローカルXMLデータベースダンプからのダイナミックHTML生成
データベースダンプファイルを多くの静的HTMLに変換する代わりに、動的HTMLジェネレーターを使用することもできます。Wikiページの閲覧は、Wikiサイトの閲覧と同じですが、コンテンツはブラウザからの要求に応じてローカルダンプファイルからフェッチおよび変換されます。
XOWA
XOWAは、ウィキペディアをコンピューターにダウンロードするのに役立つ無料のオープンソースアプリケーションです。インターネットに接続せずに、すべてのウィキペディアにオフラインでアクセスしてください。現在、開発のベータ段階にありますが、機能しています。こちらからダウンロードできます。
特徴
- インターネットに接続せずにウィキペディアのすべての記事を表示します。
- 英語版ウィキペディアの最新の完全なコピーをダウンロードします。
- 520万以上の記事を完全なHTML形式で表示します。
- 記事内に画像を表示します。オフライン画像データベースを使用して370万以上の画像にアクセスします。
- ウィキペディア、ウィクショナリー、ウィキソース、ウィキクォート、ウィキボヤージュ(一部の非wmfダンプも含む)を含むウィキメディアウィキで動作します
- フランス語版ウィキペディア、ドイツ語版ウィキソース、オランダ語版ウィキボヤージュなど、英語以外の言語のウィキで動作します。
- ウィキデータ、ウィキメディアコモンズ、ウィキスピーシーズ、またはその他のMediaWikiで生成されたダンプなどの他の特殊なウィキと連携します
- 以下を含む660以上の他のウィキを設定します。
- 英語ウィクショナリー
- 英語のウィキソース
- 英語のWikiquote
- 英語版Wikivoyage
- フランス語ウィクショナリー、ドイツ語版ウィキソース、オランダウィキボヤージュなどの英語以外のウィキ
- ウィキデータ
- ウィキメディアコモンズ
- ウィキスピーシーズ
- ... などなど!
- ウィキメディアのデータベースバックアップを使用して、いつでもウィキを更新できます。
- オフラインWiki間を移動します。「ウィクショナリーでこの単語を検索」をクリックすると、すぐにウィクショナリーのページが表示されます。
- 記事を編集して、破壊行為やエラーを削除します。
- 他のマシンに移植できるように、フラッシュメモリカードにインストールします。
- Windows、Linux、Mac OSXで実行します。
- WikiページのHTMLを表示します。
- ウィキペディアのような検索ボックスを使用して、タイトルで任意のページを検索します。
- Special:AllPagesを使用して、アルファベット順にページを参照します。
- ページ上の単語を検索します。
- 閲覧したページの履歴にアクセスします。
- お気に入りのページをブックマークします。
- オンデマンドで画像やその他のファイルをダウンロードします(インターネットに接続している場合)
- シンプルウィキペディアを5分以内にセットアップ
- キーボードショートカットからHTMLレイアウト、内部オプションまで、さまざまなレベルでカスタマイズできます
主な特徴
- 非常に高速な検索
- キーワード(実際にはタイトルワード)ベースの検索
- 検索は複数の可能な記事を生成します:あなたはそれらの中から選ぶことができます
- 数式用のLaTeXベースのレンダリング
- 最小限のスペース要件:元の.bz2ファイルとインデックス
- MySQLにダンプをロードするのに比べて非常に高速なインストール(数時間)
WikiFilter
WikiFilterは、Wikiサイトにアクセスせずに100を超えるダンプファイルを参照できるようにするプログラムです。
WikiFilterのシステム要件
- 最近のWindowsバージョン(Windows XPは問題ありません。Windows98とMEはNTFSをサポートしていないため、機能しません)
- かなりのハードドライブ容量(インストールには約12〜15ギガバイトが必要です。その後は約10ギガバイトしか必要ありません)
WikiFilterの設定方法
- 英語版ウィキペディアダンプなどのウィキペディアデータベースダンプファイルのダウンロードを開始します。GetRightなどのダウンロードマネージャーを使用することをお勧めします。これにより、ダウンロード中にコンピューターがクラッシュしたりシャットダウンしたりした場合でも、ファイルのダウンロードを再開できます。
- [2]からXAMPPLITEをダウンロードします(動作させるには1.5.0バージョンを入手する必要があります)。ファイル名が.exeで終わるファイルを必ず選択してください
- C:\ XAMPPLITEにインストール/抽出します。
- このサイトからWikiFilter2.3をダウンロードします:http://sourceforge.net/projects/wikifilter 。ダウンロードするファイルを選択できるので、必ず2.3バージョンを選択してください。C:\ WIKIFILTERに解凍します。
- WikiFilter.soをC:\ XAMPPLITE \ apache \ modulesフォルダーにコピーします。
- C:\ xampplite \ apache \ conf \ httpd.confファイルを編集し、次の行を追加します。
- LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
- ウィキペディアファイルのダウンロードが完了したら、C:\ WIKIFILTERフォルダーに解凍します。(私はWinRAR http://www.rarlab.com/デモバージョンを使用しました– BitZipper http://www.bitzipper.com/winrar.htmlもうまく機能します。)
- WikiFilter(WikiIndex.exe)を実行し、C:\ WIKIFILTERフォルダーに移動し、XMLファイルをウィンドウにドラッグアンドドロップし、[ロード]、[開始]の順にクリックします。
- 終了したら、ウィンドウを終了し、C:\ XAMPPLITEフォルダーに移動します。setup_xampp.batファイルを実行してxamppを構成します。
- それが終わったら、Xampp-Control.exeファイルを実行し、Apacheを起動します。
- ブラウズします。http:// localhost /をウィキとそれが動作するかどうかを確認
- それが機能しない場合は、フォーラムを参照してください。
WikiTaxi(Windows用)
WikiTaxiは、MediaWiki形式のWikiのオフラインリーダーです。これにより、ユーザーはインターネットに接続していなくても、ウィキペディア、ウィキクォート、ウィキニュースなどの人気のあるウィキを検索して閲覧できます。WikiTaxiは、英語、ドイツ語、トルコ語などのさまざまな言語でうまく機能しますが、右から左への言語スクリプトには問題があります。WikiTaxiは画像を表示しません。
WikiTaxiのシステム要件
- Windows95以降以降のWindowsバージョン。巨大なウィキ(この記事の執筆時点では英語のみ)のラージファイルサポート(4 GBを超える場合はexFATファイルシステムが必要)。
- それはまたしてLinux上で動作しますワイン。
- WikiTaxiリーダーには最低16MBのRAM、インポーターには128 MBが推奨されます(速度についてはもっと)。
- WikiTaxiデータベースのストレージスペース。これには、英語版ウィキペディア(2011年4月5日現在)で約11.7 GiB、ドイツ語で2 GB、他のWikiではそれ以下が必要です。これらの数字は将来増加する可能性があります。
WikiTaxiの使用法
- WikiTaxiをダウンロードし、空のフォルダーに解凍します。それ以外の場合、インストールは必要ありません。
- お気に入りのWikiのXMLデータベースダンプ(* .xml.bz2)をダウンロードします。
- WikiTaxi_Importer.exeを実行して、データベースダンプをWikiTaxiデータベースにインポートします。インポーターは、インポート時にダンプを解凍するように注意します。そのため、ドライブスペースを節約し、事前に解凍しないでください。
- インポートが終了したら、WikiTaxi.exeを起動し、生成されたデータベースファイルを開きます。すぐに検索、閲覧、読書を開始できます。
- インポートが成功すると、XMLダンプファイルは不要になり、削除してディスク領域を再利用できます。
- WikiTaxiのオフラインWikiを更新するには、最新のデータベースダンプをダウンロードしてインポートします。
WikiTaxiの読み取りには、WikiTaxi.exeと.taxiデータベースの2つのファイルのみが必要です。それらを任意のストレージデバイス(メモリースティックまたはメモリーカード)にコピーするか、CDまたはDVDに書き込んで、どこにでもウィキペディアを持っていきましょう!
BzReaderおよびMzReader(Windows用)
BzReaderは、高速検索機能を備えたオフラインのWikipediaリーダーです。WikiテキストをHTMLにレンダリングし、データベースを解凍する必要はありません。Microsoft .NET Framework2.0が必要です。
Mun206によるMzReaderは、BzReaderと連携し(提携していませんが)、モノブックスキンの解釈を含め、ウィキコードをより優れたHTMLにさらにレンダリングできます。ページを読みやすくすることを目的としています。ダウンロードに付属していないMicrosoftVisual Basic6.0ランタイムが必要です。また、ダウンロードに同梱されているInetControlとInternetControls(Internet Explorer 6 ActiveX)も必要です。
EPWING
日本で一般的で時代遅れの日本工業規格(JIS)であるEPWING辞書形式のオフラインWikipediaデータベースは、リーダーが利用可能なすべてのシステムで、サムネイル画像やレンダリング制限のある表を含めて読み取ることができます(Boookends)。Windows(モバイルを含む)、Mac OS X、iOS(iPhone、iPad)、Android、Unix-Linux-BSD、DOS、およびJavaベースのブラウザーアプリケーション(EPWINGビューアー)用の無料および商用のリーダーが多数あります。
鏡の建物
WP-ミラー
- 重要: WPミラーは2014年以降サポートされておらず、実際に機能することをコミュニティで確認する必要があります。トークページをご覧ください。
WP-MIRRORは、WMFWikiの任意のセットをミラーリングするための無料のユーティリティです。つまり、ユーザーがローカルで参照できるwikiファームを構築します。WP-MIRRORは、元のサイズのメディアファイルを使用して完全なミラーを構築します。WP-MIRRORはダウンロード可能です。
も参照してください
- DBpedia
- WikiReader
- m:エクスポート
- m:ヘルプ:ページのダウンロード
- m:インポート
- メタ:データダンプ/その他のツール、関連ツール用、例:エクストラクターや「ダンプリーダー」
- ウィキペディア:ウィキペディアCDセレクション
- ウィキペディア:ウィキペディアのサイズ
- meta:ウィキメディアプロジェクトのXMLダンプのミラーリング
- meta:静的バージョンツール
- ウィキメディアオフラインプロジェクト
参考文献
- ^ 「ベンチマーク:最適なファイル圧縮形式は何ですか?」。オタクする方法。How-To Geek、LLC 。2017年1月18日取得。
- ^ 「ファイルを圧縮および解凍する」。Microsoft。Microsoft 。2017年1月18日取得。
- ^ Linuxでのラージファイルサポート
- ^ Android2.2以前はYAFFSファイルシステムを使用していました。2010年12月14日。
外部リンク
- ウィキメディアのダウンロード。
- Domasがログにアクセスします(これを読んでください!)。また、古いデータでは、インターネットアーカイブ。
- ウィキメディアのメーリングリストのアーカイブ。
- ユーザー:Emijrp / Wikipediaアーカイブ。Wiki [mp] ediaで利用可能なすべてのデータを見つけ、世界中の人々にダウンロードして保存するように促す取り組み。
- すべてのウィキペディア7zダンプをダウンロードするためのスクリプト。