Wikipedia:AutoWikiブラウザ/データベース スキャナ

章: コア· データベース スキャナ ·検索と置換·正規表現·一般的な修正
スクリーンショットの例を表示
  • 開始- 他のオプション ボックスで設定された設定に基づいて、選択したデータベース ダンプを検索します。
  • 一時停止-
  • リセット

データベース

  • データベース ファイル— [参照] ボタンを使用して、ダウンロードしたデータベース ダンプ (XML 形式、XML ファイル) をマシン上のどこに置くかを指定します。(おそらくここから)
    • 指定した XML ファイルのヘッダーから以下が自動的に読み込まれます。
      • サイト名— 例: 「Wikipedia」。
      • ベース— サイトのホームページ。例: 「https://en.wikipedia.org/wiki/Main_Page」。
      • Generator — ダンプ ファイルを作成したソフトウェアのバージョン。例: 「MediaWiki 1.42.0-wmf.14 (0b1b808)」。
      • Case — サイトのケーシング構成。例「最初の文字」。

名前空間

スクリーンショットの例を表示

検索する名前空間を選択します。何も選択されていない場合、検索には使用可能なすべての名前空間が含まれます。ダンプ ファイルには、Wiki で利用可能なすべての名前空間のデータが含まれていない可能性があることに注意してください。

タイトルマッチング

スクリーンショットの例を表示
  • タイトルに次の内容が含まれる— テキストを含むタイトル、または正規表現オプションが使用されている場合はテキストと一致するタイトルに検索を制限します。
  • タイトルに含まれない— テキストを含まないタイトル、または正規表現オプションが使用されている場合はテキストに一致しないタイトルに検索を制限します。
  • 正規表現AWB 正規表現のヘルプ
  • 大文字と小文字を区別する— テキスト/一致パターンで大文字と小文字を区別するかどうか。

リビジョン

スクリーンショットの例を表示

最終編集日

  • 検索日— チェックを入れると、リビジョン (最終編集) 日が範囲内のページに検索が制限されます。
    • 開始日— 範囲の開始日。
    • 終了日 — 範囲の終了日。

文章

スクリーンショットの例を表示

テキスト検索

  • 次を含む- %%title%%、%%key%%、%%titlename%%、および %%namespace%% は、検索が正規表現でない場合に機能します
  • 含まれない— %%title%%、%%key%%、%%titlename%%、および %%namespace%% は、検索が正規表現でない場合に機能します
  • 正規表現AWB 正規表現のヘルプ
  • 単一行— 「.」の意味を変更します。したがって、改行を除くすべての文字とは対照的に、すべての文字に一致します。
  • 大文字と小文字を区別する— 大文字と小文字を区別するを有効にします
  • 複数行— 「^」と「$」の意味を変更して、文字列全体ではなく、それぞれの行の先頭と末尾を表すようにします。
  • <!-- コメント --> を無視する

ページテキストのプロパティ

  • 登場人物
  • リンク
  • 言葉

検索中

スクリーンショットの例を表示

AWB 固有

  • なし- データベース ダンプ内のすべてのページ (他のスキャン フィルター基準に一致するもの) をリストするだけです。
  • AWB は勇気を出しますというタイトルがあります
  • AWB が簡素化するリンクあり— 簡略化できるリンクを DB ダンプで検索できます。例:
  • [[Dog|Dog]] から [[Dog]] のようなリンクを簡略化します。
  • [[Dog|Dogs]] から [[Dog]] へのリンクを簡素化します。
  • 不正なリンクがあります。AWB が修正します
  • HTML エントリがあります
  • セクションエラー
  • 箇条書きのないリンク— データベース ダンプを検索して、箇条書きではない外部リンクを持つページを探します。
  • Typo — RegexTypoFix が有効な場合に AWB が行うのと同じ方法で、データベース ダンプでスペル ミスを検索できます。
  • {{デフォルトソート}}がありません

その他のオプション

  • ページから開始— 入力したページ名から開始します。ダンプは、指定されたページが見つかるまでスキャンされ、その後、他の検索設定を使用して通常どおりスキャンが続行されます。ページが見つかるまでのスキャンは、完全な設定を使用してスキャンするよりも高速ですが、そのページまでのダンプ ファイルを読み取る必要があるため、それでも時間がかかります (システムの CPU 速度に応じて、XML データ 1 ギガバイトあたり約 30 秒) )。
  • 結果を制限する— データベース ダンプから表示される結果の数を制限します。制限に達すると、スキャンは早期に停止します。

制限

スクリーンショットの例を表示

編集制限(半保護、完全保護など)が設定されているページを検索できます。

ヘルプ

スクリーンショットの例を表示

一部の URL は、関連するダンプ ヘルプ ページへのリンクです。

パフォーマンス

データベース スキャナーの速度は、主に、データベース スキャナーが実行されているシステムの 2 つの要素に依存します。

  1. CPUのシングルスレッドパフォーマンス
  2. ハードディスクの読み取り速度。

パフォーマンスの例: Intel Core i5 520M モバイル CPU: 最大 CPU 使用率と最大 30  MB/秒のディスク シーケンシャル読み取り

したがって、2010 年代以降の適切な CPU を使用すると、AWB は約 30 MB/秒でデータベース XML ダンプ ファイルを読み取り、CPU の制限を受けます。したがって、ネットワークストレージ領域からデータベースファイルを読み取る場合、ネットワーク転送速度がこの速度を下回ると、データベーススキャンのパフォーマンスが低下します。ローカル ディスクからデータベース XML ダンプ ファイルを読み取る場合、最新の機械式ハード ディスクは通常 30 MB/秒をはるかに超えるシーケンシャル読み取り速度を提供できるため、データベース スキャン速度は CPU の制限を受けます。

データベース スキャナはマルチスレッドです。データベース スキャナは、メイン スレッドを使用してディスクからデータベースXMLファイルを読み取り、追加のスレッドを使用してユーザーの検索条件に基づいて記事を検索します。合計スレッドは CPU コアの数に等しくなります (たとえば、ハイパースレッディングのないクアッドコア CPU の場合は、メイン スレッドが 1 つとセカンダリ スレッドが 3 つになります)。セカンダリ スレッドが遅れすぎる場合、メイン スレッドは XML の読み取りを一時停止し、記事の検索に貢献します。これは、検索基準に基づいて記事を検索する方が、XML ファイルから記事を読み取るよりも遅い場合に発生します。通常はこれが当てはまります。Core i5 520M の例では、これが発生します。データベース スキャナのパフォーマンスは、すべてのスレッドが記事を検索できる速度に制限されるため、全体的なパフォーマンスは CPU のマルチスレッド パフォーマンスに制限されます。

より多くのコアを備えた CPU、および/または各コアのパフォーマンスが向上すると、データベース スキャナーのパフォーマンスが向上します。

  • フィルター— DB ダンプから見つかった結果をフィルターできます。オプションは通常の AWB リスト フィルターと同じです。
  • 保存— リストをテキスト文書として保存します
  • クリア— ページのリストをクリアします

変換する

  • 見出しを追加する間隔— x 行ごとに見出しを追加します。
  • アルファベット順の見出し
  • # — 各ページ名の前に # を付けたリストを作成します。Wiki ページに配置すると、行に番号が付けられます。
  • * — 各ページ名の前に ** を付けたリストを作成します。Wiki ページに配置すると、行が箇条書きになります。
  • AB C... 見出し— その文字で始まるページ名の見出し == 見出し == を追加します。
  • 作成— リストを作成します
  • コピー— 別のドキュメントにコピーして貼り付けるために、リストをユーザーのクリップボードにコピーします。
  • 保存— リストをテキスト文書として保存します
  • クリア— ページリストからすべてのページを削除します
「https://en.wikipedia.org/w/index.php?title=Wikipedia:AutoWikiBrowser/Database_Scanner&oldid=1155077751」から取得