ウィキペディア:検索エンジンテスト

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

検索エンジンは、インターネット上のWebページを一覧表示しますこれにより、適用可能なさまざまなオプションがすぐに提供されるため、調査が容易になります。結果リストのおそらく有用な項目には、辞書などのWebサイトが提供できるソース資料または電子ツールが含まれますが、リスト自体も全体として重要な情報を示すことができます。ただし、その情報を見極めるには洞察が必要な場合があります。

検索エンジンの結果を参照することは、信頼性に応じて、ソース資料を提示(注目すべきもの)または削除(検証不可能なもの)するための迅速な方法です。ウィキペディアには信頼性に対する高い需要があります。ソース資料の信頼性を見極めることは、Webを使用するための特にコアスキルですが、Wiki自体は複数のドラフトの作成を容易にするだけです。プレゼンテーションと削除が進むにつれて、入力のためのこのさまざまな選択は、望ましい目的、つまり中立的な視点を生み出す傾向があります。クエリの種類と検索エンジンの種類に応じて、この種類は1人の作成者に開かれる可能性があります。

いくつかの検索エンジンテスト

  1. 人気–以下のGoogleのトレンドツールをご覧ください。
  2. 使用法–用語の注目度を特定します。(たとえば、Googleのngramツールを参照してください。)
  3. 誠実さ–偽のデマや都市伝説を特定します。
  4. 注目度–ページを削除対象として指定するかどうかを決定します。
  5. 存在–プレゼンテーションの可能性について、実際にどのソース(Webサイトを含む)が存在するかを発見します
  6. 情報–事実と引用の信頼性を確認します。
  7. 名前と用語–物事に使用される名前を特定します(代替名と用語を含む)。
  8. 著作権–資料がコピーされているかどうかを確認し、コピーされている場合はライセンスを確認します。

このページでは、これらのWeb検索テストとウィキペディアの開発に役立つWeb検索ツールの両方について説明し、それらのバイアスと制限について説明します。

特定の検索エンジンの利点は、さまざまな一般的な検索エンジンを使用することで区別できます。それぞれの明確な利点は、ユーザーインターフェイスであり、それほど明白ではありませんが、独自のインデックスをコンパイルおよび検索するためのアルゴリズムです。Webクローラーはブロックされる可能性があるため(特定のクローラーまたは一般的に)、さまざまな検索エンジンがさまざまなWebサイトを一覧表示でき、どのデータベースでインデックス付けされているよりも多くのWebサイトがURLで利用できます。

最も一般的な検索エンジンは、GoogleBing、およびYahooにあります。医学科学ニュース法律などに特化した検索エンジンが存在します。いくつかの一般化された検索エンジンが存在します。これらはあなたのクエリを多くの検索エンジンに適応させます。以下の§一般的な検索エンジンを参照してくださいこのページは主にBingYahooの代わりにGoogleを使用していますが、可能な限り一般性を目指しています。たとえば、Googleグループ(usenetグループ)、Google scholar(アカデミア)、Googleニュースについて説明します。、およびGoogleブックス

誠実な検索:経験則

記事へのソースのない追加がもっともらしいと思われる場合は、元に戻すかどうかを決定する前に、適切な検索エンジンを使用して信頼できるソースを見つけることを検討してください。

検索エンジンのテスト

主題とそれがどれほど注意深く使用されているかに応じて、検索エンジンのテストは非常に効果的で役立つか、誤解を招くまたは役に立たない結果を生み出す可能性があります。ほとんどの場合、検索エンジンのテストは、最初のパスのヒューリスティックまたは「経験則」です。

検索テストでできることとできないこと

検索エンジンは、本の裏にある大きなインデックスのように、他の人がインターネット上に置いたページやテキストにインデックスを付けることができます。

検索エンジンは次のことができます。

  • 情報を提供し、上記の目標を支援するページに誘導します
  • 情報源によると、「誰が何を言ったと報告されているか」を確認する(中立的な引用に役立つ)
  • 多くの場合、ソースドキュメントの完全な引用コピーを提供します
  • 式がどれほど一般的に参照されているかを大まかに確認します。ただし、Google検索では、特に正確に引用された表現の場合、ユーザーに返されるよりもはるかに多くのヒットが報告される可能性があることに注意してください。たとえば、2021年に引用符で囲まれた「緑の金魚」をGoogleで検索すると、最初は約209,000件の結果が報告されますが、最後の検索結果ページにページを移動すると、返されたヒット数は303になります。統計を計算するにはこちらもご覧ください意義。[1]
  • 特定のWebサイト内で、または組み合わせた代替フレーズをより具体的に検索します(または、結果を混乱させる可能性のある特定の単語やフレーズを除外します)。

検索エンジンはできません:

  • 結果が信頼できる、または「真」であることを保証します(検索エンジンは、人々がオンラインに置くことを選択したテキスト、真または偽のインデックスを作成します)。
  • 何かが多く言及されている理由と、それが重要性ではなく、マーケティングインターネットミームとしての再投稿、スパム、または自己宣伝によるものではないことを保証します。
  • 結果が他の用途ではなく、あなたが意味する用途を反映していることを保証します。(たとえば、特定のJohn Smithを検索すると、意図されたものではない多くの「John Smiths」が検出され、「John」と「Smith」が別々に含まれているページが多くなり、 J 。Smith」、または用語が引用符で囲まれている場合は、「JohnMichaelSmith」および「Smith、John」)
  • 検索式を選択することで、重要な参照を見逃していないことを保証します。
  • あまり言及されていない、または言及されていない項目は自動的に重要ではないことを保証します。
  • 特定の結果がテキストの元のインスタンスであり、転載、抜粋、引用、誤った引用、または著作権侵害ではないことを保証します。

そして検索エンジンはしばしばそうしません:

  • 急速に発展する主題のために、ジャーナルや本と同じ程度に詳細な最新の研究を提供します。
  • 中立である

検索エンジンのテストでは、結果を解釈して実際に何が表示されるかを判断する作業を回避することはできません。インデックスに表示されるだけでは、通常、何も証明されません。

検索エンジンのテストとウィキペディアのポリシー

検証可能性

検索エンジンのテストでは、架空の、偏った、デマなどの結果が返される場合があります。使用または引用する前に、使用する情報が信頼できる情報源に由来するかどうかを検討することが重要です。信頼性の低い情報源は役に立たないか、そのステータスと根拠を明確にする必要があるため、他の読者は情報源の信頼性を判断するために中立的で情報に基づいた理解を得ることができます。

中立

グーグル(および他の検索システム)は中立的な視点を目指していませんウィキペディアはそうします。Googleは、中立ポリシーがない自己作成ページとメディアページにインデックスを付けます。ウィキペディアには、必須であり、すべての記事、およびすべての記事関連の編集活動に適用される 中立ポリシーがあります。

そのため、Googleは特に中立的なタイトルのソースではなく、人気のあるタイトルのみのソースですウィキペディアでは、他の場所になくても中立性が必須であり(何と呼ばれるかを決定することを含む)、具体的には中立性が人気よりも優先されます。

検証可能性と中立性に関するポリシーのバランスについては、WP:NPOV§中立性と検証可能性を参照してください。WP:NPOV§記事の命名方法に関する記事の命名)

注目度

生の「ヒット」(検索結果)カウントは、非常に大雑把な重要性の尺度です。重要でない主題の中には多くの「ヒット」があるものもあれば、このページでさらに説明する理由により、注目すべき主題の中にはほとんどまたはまったくないものもあります。

ヒット数だけでは、ヒットの種類、検索対象、検索方法、結果を出すための解釈についてさらに議論することなく、注目度について何も「証明」することはめったにありません。一方、発生するヒットのタイプ[必要な説明](またはそれらの欠如)を調べることは、注目度に関連する有用な情報を提供する ことがよくあります。

さらに、検索エンジンは曖昧さを解消せず、部分的な検索と一致する傾向があります。(ただし、以下で説明するように、一致するフレーズを引用することで部分一致を排除できます):岩窟の聖母は確かに百科事典で注目に値するエントリですが、ポップカルチャーのアイコンではありません。ただし、部分一致としてのマドンナの一致、および絵画に関連しない他のマドンナの参照のため、GoogleまたはBingの検索結果の数は、同様に注目に値するルネサンスの絵画と比較して不均衡になります。フレーズをグーグルで検索するときに部分一致を除外するには、一致するフレーズを次のように引用します:「岩窟の聖母」

検索エンジンの使用

検索エンジンの表現(例とチュートリアル)

このセクションでは、 GoogleWeb検索で使用されるいくつかの検索式について説明します。[2]同様のアプローチは、他の多くの検索エンジンや他のGoogle検索でも機能しますが、検索エンジンの機能と操作はしばしば異なるため、詳細については常にヘルプページをお読みください。Googleで検索するときにGoogleアカウントにサインインしている場合、検索履歴に基づいて、取得する結果に影響を与える可能性があることに注意してください。[3]また、「検索設定」の「(検索)結果を表示する言語」も必ず確認してください。[4]

最も便利な検索エンジンツールは、引用符を使用してフレーズに完全に一致するものを見つけることです。ただし、Googleなどの検索エンジンには、簡単な検索と高度な検索の両方があり、さらに検索オプションがあります。高度な検索を使用すると、高度なオプションを簡単に入力できるため、検索に役立つ場合があります。次の折りたたみ可能なセクションでは、基本的な例と、ウィキペディアで検索エンジンを使用するためのヘルプについて説明します。

医学論文アーカイブなどの特殊な検索エンジンには、ここでは取り上げていない独自の特殊な検索構造があります。

ウィキペディアでの検索エンジンの特定の使用法

  • Googleトレンドでは、このように(注:スポーツカテゴリ)、またはこのように、単語または名前のどのレンダリングが最も検索されているかを見つけることができます「津波」と「津波」の例。下記のGoogleブックスの例もご覧ください。
  • Googleブックスには、全体としてWebよりも従来の百科事典のコンテンツと密接に一致するカバレッジのパターンがあります。構造的偏りがある場合、それはGoogleWeb検索とは非常に異なる構造的偏りです。Googleブック検索で正確なフレーズを複数回ヒットすると、そのフレーズまたは概念が実際に使用されていることを示す説得力のある証拠が得られます。「津波」と「津波」などの用語の使い方を比較できますGoogleブックス検索では、人、出来事、または概念の重要性について、印刷物で公開された証言を見つけることができます。また、ソースのない「一般的な知識」のファクトを、同じファクトの印刷ソースのバージョンに置き換えるために使用することもできます。[5]
  • Googleグループまたはその他の日付が刻印されたメディアは、単語またはフレーズへの早期参照のタイミングとコンテキストを確立するのに役立ちます。Googleグループ検索
  • Googleニュースは、何かが報道価値があるかどうかを評価するのに役立ちます。Googleニュースは、以前は自己宣伝者による操作の影響を受けにくくなりましたが、広告収入を収集したり特定の議題を宣伝したりするように設計された疑似ニュースサイトの出現により、このテストは、人気のある分野で他のテストよりも信頼性が低くなることがよくあります。特定の視点を反映する多くの「ニュース」ソースにインデックスを付けます。ニュースアーカイブは何年も前にさかのぼりますが、限られた期間を超えて無料になることはありません。ニュースの結果には、中立的で独立した情報源ではないプレスリリースが含まれることがよくあります。
  • Google Scholarは、出版物、文書、または著者が他の人によって引用または引用された回数の証拠を提供します。科学的または学術的なトピックに最適です。修士論文と博士論文、特許、および法的文書を含めることができます。GoogleScholar検索
  • 人気のある参照によって注目に値すると主張されているトピックは、参照のタイプと人気をチェックすることができます。インターネット上に数百の参照しかないという注目すべき問題は、それほど注目に値しないかもしれません。本当に人気のあるインターネットミームには、数百万または数千万もの参照が含まれている可能性があります。[6]ただし、一部の領域では、注目すべき主題の参照が非常に少ない場合があることに注意してください。たとえば、いくつかの考古学的問題へのほんの一握りの言及しか期待できないかもしれません、そしていくつかの問題はオンラインでまったく反映されません。
  • 本物であると主張されているトピックは、信頼できる独立した情報源によって参照されているかどうかをテストするためにチェックできます。これは、デマなどの良いテストです。
  • 多くの場合、Webサイトからの著作権侵害を特定できます(上記のとおり)。
  • 代替のスペルと使用法では、相対頻度をチェックできます(たとえば、2つの等しく中立で許容可能な用語の中でより一般的な討論の場合)。Googleトレンドでは、「ニュース」カテゴリ(「津波」と「津波」の例)の使用状況を比較できますが、これは古いニュースでは信頼できない場合があります。[7]

結果の解釈

全般的

注目度を証明するために、生のヒット数に依存してはなりません。代わりに、何が見つかったか(本、ニュース記事、学術記事、およびWebページ)、およびそれらが実際に注目に値するかどうかに注意を払う必要があります。ヒットカウントは、注目度を測定するための非常に誤ったツールであり、今後も続く可能性が非常に高いため、決定的または決定的なものと見なすべきではありません。見つかった結果の管理可能なサンプルを個別に開いて読んで、実際にそれらの関連性を確認する必要があります。

Google(およびBingやYahoo!などの他の検索エンジン)の場合、ページ上部のヒット数は信頼できないため、通常は報告されません。結果の最後から2番目(最後から2番目)のページで報告されるヒット数は、わずかに正確である可能性があります。ヒット数が少ない(1000未満)検索の場合、結果の最後のページの下部に到達するために必要な実際のヒット数はより正確な場合がありますが、これでも確実ではありません。Googleは、以前の検索履歴やヒットしたGoogleサーバーなどの要因に応じて、異なる検索結果を返します。[8] [9]

結果を解釈する際のその他の有用な考慮事項は次のとおりです。

  • 記事の範囲:狭い場合は、必要な参照が少なくなります。それがNPoVであるかどうかにかかわらず、視点を分類してみてください。たとえば、オントロジーオントロジー(コンピューターサイエンス)の違いに注目してください。
  • 記事の主題:歴史上の人物に関するものであれば、信頼できるテキストで1つか2つの言及で十分かもしれません。それがインターネットの造語ポップソングの場合、700ページにある可能性がありますが、ウィキペディアの目的上、注目を集めるのに十分な「存在」とは見なされない可能性があります。

知っておくべきバイアス

ほとんどの場合、検索結果は、それらに依存する前に、認識と慎重な懐疑論を持ってレビューする必要があります。一般的なバイアスは次のとおりです。

一般的なバイアス

一般(インターネットまたは全体としての人々):

  • 個人的な偏見–日常の文化に精通している、同意している、または一般的であるという信念をより受け入れやすく、自分の好みの見解と矛盾する信念や見解を軽視する傾向。
  • 文化的およびコンピューター使用バイアス–インターネットを使用する先進国および社会の豊かな部分(インターネットアクセス)からの情報に偏っています。コンピュータの使用がそれほど一般的ではない国では、同じように注目に値する資料への参照率が低くなることが多く、したがって(誤って)注目に値しないように見える場合があります。
  • 過度の重み–特に大衆文化に関連するいくつかの問題を不釣り合いに表す可能性があります(一部の問題は、彼らの立場を公正に表すよりもはるかに多くのスペースを与えられ、他の問題ははるかに少なくなる可能性があります):人気は注目に値しません
  • ソースに簡単にアクセスできない–一部のソースにはすべての人がアクセスできますが、多くは支払いのみであるか、オンラインで報告されていません。

一般的なウェブ検索エンジン(グーグル、ビングウェブ検索など):

  • ダークネット–検索エンジンは膨大な数のページを除外します。これには、一部の問題が不均衡に除外されるように体系的なバイアスが含まれる場合があります(たとえば、Googleのインデックス作成が許可されていないサイトで一般的に表示されるため、または技術的な理由でコンテンツが表示されないため)インデックスに登録する(Flashまたは画像ベースのWebサイトなど)
  • プロモーションツールとしての検索エンジン–このような検索でサイトの位置、人気、評価に影響を与えたり、検索や検索位置に関連する広告スペースを販売したりする業界が存在します。ポルノ俳優などの一部の主題は、これらに支配されているため、検索を確実に使用して人気を確立することはできません。
  • レビュープロセスはさまざまです。情報を受け入れるサイトもあれば、何らかの形のレビューまたはチェックシステムを導入しているサイトもあります。
  • セルフミラーリング–他のサイトがウィキペディアのコンテンツを複製し、それがインターネット上で渡され、それに基づいてより多くのページが構築されることがあります(多くの場合引用されません)。つまり、実際には、検索エンジンの結果の多くのソースは実際には本物の情報源ではなく、ウィキペディア自身の以前のテキストのコピー。
  • 人気のある使用バイアス–人気のある使用法と都市伝説はしばしば正確さについて報告され ます
  • 人気のある見解や認識がより多く報告される可能性があります。たとえば、鍼治療や人々が動物の毛皮にアレルギーを起こすことが多いことを確認することへの言及がたくさんあるかもしれませんが、前者の医学的な査読済みの評価があることが明らかになり、人々は通常そうではないことが慎重な研究によってのみ可能性があります毛皮にアレルギーがありますが、毛皮の粘着性のある皮膚と唾液の粒子(皮脂)にアレルギーがあります。
  • 言語選択の偏り–たとえば、アラビア語で同性愛に関する情報を検索するアラビア語話者は、同じ主題について英語で検索する英語話者とは異なる偏見を反映するページを見つける可能性があります。同性愛を受け入れるグループの割合が高い傾向にある英語圏の国(米国、英国、オーストラリアなど)と、割合が低い傾向にあるアラビア語圏の国(中東)の間。

他の:

  • 他のGoogle検索、特にGoogle Book Searchは、Google Web検索とは異なる構造的偏りを持っており、興味深いクロスチェックとやや独立したビューを提供することに注意してください。

Alexaの評価

場合によっては、Webサイトの相対的な人気を推定することが役立つことがあります。Alexa Internetはこのためのツールです(HitwiseQuantcastは他のものです)。特定のWebサイトに対するAlexaのランキングをテストするには、 alexa.comにアクセスしてURLを入力します。

Alexa測定システムは、ユーザーがインストールすることを選択する必要のあるツールバーに基づいています。このツールバーは、InternetExplorerやMozillaFirefoxなど、さまざまなオペレーティングシステムの複数のブラウザにインストールできます。バイアスの原因には、ユーザーがそのようなツールバーを不釣り合いにインストールしないWebサイトと、評価を高めることのみを目的としてAlexaツールバーをインストールするWebマスターの両方が含まれます。具体的には、Alexaのランキングは、いくつかの理由からWebサイトの注目度ガイドラインの一部で はありません。

  • 特定のレベルを下回ると、サンプルサイズが制限されるため、Alexaのランキングは本質的に無意味になります。Alexa自体は、100,000未満のランクは信頼できないと言っています。[10]
  • Alexaのランキングはさまざまであり、重要な体系的バイアスが含まれています。つまり、評価は人気を反映していないことが多く、特定のユーザーグループ間での人気のみを反映しています(AlexaInternet§懸念事項を参照)。大まかに言って、Alexaはユーザーがインストールしたツールバーによる測定に基づいて評価しますが、これは非常に変化しやすいツールであり、インターネットユーザーコミュニティの大部分(特に企業ユーザー、多くの上級ユーザー、多くのオープンソースおよび非Windowsユーザー)があります)それを使用せず、したがってインターネット参照の使用が無視される人。
  • Alexaのランキングは、百科事典の注目度と信頼できるソース資料の存在を反映していません。ランクの高いWebサイトには何も書かれていないか、ランクの低いWebサイトには多くのことが書かれている可能性があります。
  • 間違いなく注目に値するトピックの多くには、Alexaのランキングが低いWebサイトがあります。

Quantcastの評価

  • 統計を取得するには、 http: //quantcast.comにアクセスし、URLを入力して、[検索]をクリックします。
  • Quantcastのサービスに加入しているエンティティの場合、Quantcastはトラフィック測定値が「検証済み」であることを宣言します。これは、プラグインのユーザーインストールに依存しないため、Alexaの結果よりも優れた信頼性を提供する可能性があります。
  • 「定量化」されるようにサブスクライブしていないエンティティの場合、Quantcastはトラフィック測定値を「推定」と宣言します。
  • §Alexaの評価に記載されているのと同じ信頼性と注目度の規定がここに適用されます。

外国語、非ラテン文字、および古い名前

多くの場合、英語以外のアイテム、またはラテン文字以外のスクリプトでは、正しいスクリプトまたはさまざまな文字起こしを検索すると、かなり多くのヒットが発生します。必ず「検索」の「表示(検索)結果を表示する言語」を確認してください。設定」。[4]たとえば、アラビア語の名前は元のスクリプトで検索する必要があります。これはGoogleで簡単に実行できます(検索対象がわかっている場合)が、たとえば英語、フランス語、ドイツ語の場合は問題が発生する可能性があります。 Webページは、さまざまな規則を使用して名前を転記します。英語のみのWebページの場合でも、同じアラビア語またはロシア語の名前のバリエーションが多数存在する可能性があります他の言語の個人名(ロシア語、アングロサクソン人)父称を含むものと含まないものの両方を検索する必要がある場合があります。また、語尾変化の強い言語での名前やその他の単語の検索では、ヒットの総数に到達するには、大文字と小文字の終わりやその他の文法上のフォームを検索する必要がある場合があることを考慮に入れる必要があります。言語を知らない人には明らかでないバリエーション。多くの文化の名前は、伝統的に名前の一部と見なされるタイトルと一緒に付けられますが、省略されることもあります(Gazi Mustafa Kemal Pashaのように)。

古英語でも、古い名前のスペルとレンダリングにより、同じ人に数十のバリエーションが許可される場合があります。1つの特定のバリアントを単純に検索すると、Webの存在が桁違いに少なくなる可能性があります。

このような検索には、すべてのウィキペディアンが持つとは限らない特定の言語能力が必要ですが、ウィキペディアコミュニティ全体には、多くのバイリンガルおよびマルチリンガルの人々が含まれます。AfDの推薦者と有権者は、少なくとも自分の限界を認識し、言語や文字起こしの偏りが要因となる可能性がある場合は、不利な仮定をします。

Googleの個別のページ数の問題

また、検索エンジンによって報告された検索文字列の一致数は推定値にすぎないことにも注意してください。たとえば、Googleは、ユーザーがすべての結果ページを最後のページに移動したときにのみ実際の一致数を計算し、それでも図に制限を課します。場合によっては、「一致」カウントの見積もりが、最後の結果ページに表示された結果の総数 と大幅に異なる場合があります(1桁以上)。

サイト固有の検索は、ほとんどの一致が同じWebサイトからのものであるかどうかを判断するのに役立つ場合があります。単一のWebサイトが数十万のヒットを占める可能性があります。

多くの結果を返す検索用語の場合、Googleは、コンテンツが実質的に類似しているページを無視し、特定のドメインから返されるページ数を制限することにより、リストされている他の結果と「非常に類似している」結果を排除するプロセスを使用します。たとえば、「Taco Bell」を検索すると、そのドメイン内の多くのページが確実に一致する場合でも、tacobell.comから数ページしか表示されません。さらに、Googleの個別の結果のリストは、最初に上位1000件の結果を選択し、次に置換せずに重複を排除することによって作成されます。したがって、個別の結果のリストには、実際に検索用語に一致するWebページの数に関係なく、常に1000未満の結果が含まれます。たとえば、2010年12月14日現在、「Microsoft」に関連する約7億4200万ページから、Googleは572の「異なる」結果を返していました。[11]1000をはるかに超える検索結果が得られるWebサイトの相対的な重要性を判断する際には、注意が必要です。

検索エンジンの制限–テクニカルノート

存在する公開されているWebページの多く、おそらくほとんどは索引付けされていません。各検索エンジンは、全体の異なる割合をキャプチャします。キャプチャされた部分を正確に知ることはできません。

ワールドワイドウェブの推定サイズは少なくとも115億ページですが[12]、検索エンジンがインデックスを作成しないコンテンツのデータベース内には、3兆ページを超えると推定されるはるかに深い(そしてより大きな)ウェブが存在します。これらの動的Webページは、ユーザーが要求したときにWebサーバーによってフォーマットされるため、従来の検索エンジンではインデックスに登録できません。米国特許商標庁ウェブサイトはその一例です。検索エンジンはメインページを見つけることができますが、サイト自体にクエリを入力することによってのみ、個々の特許のデータベースを検索できます。[13]

Googleは、すべてのインターネット検索エンジンと同様に、実際にインターネット上で利用可能になっている情報のみを見つけることができます。インターネット上にないかなりの量の情報がまだあります。

Googleは、すべての主要なWeb検索サービスと同様にrobots.txtプロトコルに従い、Googleによるコンテンツのインデックス作成またはキャッシュを望まないサイトによってブロックされる可能性があります。著作権で保護されたコンテンツ(画像ギャラリー、購読新聞、ウェブコミック、映画、ビデオ、ヘルプデスク)を大量に含むサイト(通常はメンバーシップを含む)は、Googleやその他の検索エンジンをブロックします。他のサイトも、コンテンツをホストしているサーバーのストレスや帯域幅の懸念により、Googleをブロックする可能性があります。

また、検索エンジンは、通常はブラウザプラグイン、 Adobe PDF、Macromedia Flashを必要とするリンクやメタデータ、またはWebサイトが画像の一部として表示される場所を読み取ることができない場合があります。検索エンジンは、ポッドキャストやその他のオーディオストリーム、さらには検索用語に言及しているビデオを聞くこともできません。同様に、検索エンジンは、フォトスキャンで構成されるPDFファイルを読み取ったり、圧縮(.zip)ファイルの内部を調べたりすることはできません。

フォーラム、メンバーシップ専用およびサブスクリプション専用サイト(Googlebotはサイトアクセスにサインアップしないため)、およびコンテンツを循環させるサイトは、検索エンジンによってキャッシュまたはインデックス付けされません。より多くのサイトがAJAX / Web 2.0デザインに移行するにつれて、検索エンジンはWebページ上のリンクをたどるだけをシミュレートするため、この制限はより一般的になります。AJAXページ設定(Googleマップなど)は、JavaScriptのリアルタイム操作に基づいて動的にデータを返します。

Googleはまた、実際のコンテンツページよりも多くの結果を特定の検索用語に対して返す可能性 のあるリダイレクトエクスプロイトの犠牲になっています。

グーグルや他の人気のある検索エンジンは、検索エンジンオプティマイザーとしても知られる検索エンジン「検索結果エンハンスメント」のターゲットでもあるため、広告としてのみ機能するページにつながる多くの結果が返される場合もあります。ページには、検索エンジンユーザーをそのページに引き付けるために特別に設計された何百ものキーワードが含まれている場合がありますが、実際には、キーワードに関連するコンテンツを含むページではなく、広告を提供します。

Googleによって報告されたヒット数は推定値にすぎず、特に数千を超えるヒット数の場合、必然的に1桁近くずれていることが示されている場合があります。[14] [15]数千のGoogleヒットを生み出すような一般的な単語の場合、英国国立コーパス(英国英語の場合)や現代アメリカ英語のコーパス(アメリカ英語の場合)などの無料で入手できるテキストコーパスを使用すると、より正確になります。 2つの単語の相対的な頻度の推定。

制限の例

経済犯罪サミットサイトは、Googleやインターネットアーカイブにやさしいサイトです。それは非常にグラフィックスが重く、Googleに検索するものがほとんどないか、インターネットアーカイブバージョンで多くの欠落しているページを提供します。したがって、2002年の経済犯罪サミット会議を開催することはできますが、機能しないものを誰が提示したかを示す概要リンクです。2004年の経済犯罪サミット会議のアーカイブは3か所にあり、アーカイブされたリンクのいずれも提示された論文について何も教えていないため、さらに悪化しています。

インターネットアーカイブを介して、「証拠処理におけるコンピュータ技術の進歩の影響」に関するいくつかの情報がインターネット上に存在したという証拠があります。[16] それでも今日、Googleはその情報を見つけることができません! 2002年の経済犯罪サミット会議の一部であることが知られており、かつてインターネット上のWebサイトに掲載されていたプログラム[いつ?] Googleで見つかりません。

一般的な検索エンジン

最も一般的な検索エンジンはGoogle、Bing、およびYahooですが、コンテキストに依存する最も有用な検索エンジンは、最も一般的なものではない場合があります。

タイプ
一般的な検索エンジン GoogleBingYahoo!
ウェブサイト人気指数 Alexaヒットワイズ
一般情報 About.com
専門的な研究指標 Medline(医療)、科学、法律、Google Scholar
ニュースとメディア Googleニュースアーカイブ検索
Webページの履歴アーカイブ Archive.org検索エンジンのキャッシュ(さまざまな時点で、または削除された場合のWebページの外観とそのコンテンツ)
本と歴史文学 Project GutenbergGoogleブックスAmazon.coma9.com(書籍情報用)
大学および高等教育機関 4icu.org(大学のウェブサイト検索エンジン)

専門の検索エンジン

Google Scholarは、紙を重視し、すべての(またはほぼすべての)尊敬される場所でオンラインで存在する分野に適しています。この検索エンジンは、特に本、会議論文、非アメリカのジャーナル、戦略分野の一般的なジャーナルなど、後者で十分にカバーされていない分野で、市販のThompson ISI Web ofKnowledgeを補完するものです。管理、国際ビジネス、[17] 英語教育および教育技術。[18] Google Scholarで利用されているPageRankアルゴリズムの分析は、この検索エンジンとその商用アナログが、いくつかの具体的な情報源の人気に関する適切な情報を提供することを示しました[19]。それは具体的な出版物の実際の科学的貢献を自動的に反映するものではありませんが。[19]

現在PubMedの一部であるMedLineは、元の広範囲に基づいた検索エンジンであり、40年以上前に作成され、さらに以前の論文に索引を付けています。したがって、特に生物学と医学では、PubMedの「関連記事」はオンラインで存在しない古い論文のGoogleScholarプロキシです。たとえば、ジャーナルStrokeは、1970年代までオンラインで論文を掲載しています。この1978年の論文[2]では、Google Scholarは100件の引用記事をリストしていますが、PubMedは89件の関連記事をリストしています。

米国議会図書館、米国議会図書館(THOMAS)インディアナ最高裁判所FindLaw(米国)など、多くの国でオンラインに多数の法律図書館があります。ケント大学の法律図書館と情報源(英国)。

この検索エンジンのリストも参照してください

一般化された検索エンジン

いくつかの一般化された検索エンジンが存在します。これらはあなたのクエリを多くの検索エンジンに適応させます。Webブラウザーには、検索ボックスに使用する検索エンジンの選択肢があり、これらを一度に1つずつ使用して、検索結果を試すことができます。メタ検索エンジンは、一度に複数の検索エンジンを使用します。 About.comからの10の人気のあるものがレビューを提供します。Webブラウザーのプラグインは、検索エンジンまたはメタ検索エンジンを選択肢のリストに追加できます。

も参照してください

参考文献

  1. ^ たとえば、ある名前でGoogleブックスに16件のヒットがあり、別の名前で24件のヒットがある場合、2番目の名前が実際により一般的であるという確信は70%にすぎません。
  2. ^ Google検索演算子とその他の検索ヘルプ
  3. ^ 検索履歴のパーソナライズ
  4. ^ a bGoogle 検索設定
  5. ^ 執筆者を避けてください:「Books、LLC」、LLCはウィキペディアの記事の生のプリントアウトを公開しています。
  6. ^ Google検索:AYB OR AYBABTU OR "All your base"
  7. ^ ニュースソースの単語頻度に関するGoogleAnswersの質問
  8. ^ 匠、船橋; 隼人、山名(2010)。「検索エンジンのヒット数の信頼性検証」(PDF)ウェブエンジニアリングの現在の傾向に関する第10回国際会議の議事録早稲田大学コンピュータ科学工学部2015年5月5日取得
  9. ^ サリバン、ダニー(2010年10月21日)。「Googleが結果を正しくカウントできない理由」SearchEngineLand.com 2015年5月5日取得
  10. ^ [1]
  11. ^ 「Microsoft」のGoogle検索
  12. ^ ガリ、アントニオ; シニョリーニ、アレッシオ(2005年8月28日)。「インデックス可能なWebは115億ページ以上です」 {{cite journal}}: Cite journal requires |journal= (help)
  13. ^ もっと、アルビン; マレー、ブライアンH.(2000)。「インターネットのサイジング」。Cyveillance。 {{cite journal}}: Cite journal requires |journal= (help)
  14. ^ Mark Liberman(2009)、「引用符付きと引用符なしの引用符」、ランゲージログ
  15. ^ Liberman、Mark(2005)、「現実に疑問を投げかける」、ランゲージログ; そこからリンクされている他のランゲージログの投稿。
  16. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  17. ^ Harzing、AWK; van der Wal、R。(2008)引用分析の新しい情報源としてのGoogleScholar?科学と環境政治における倫理、vol。8、いいえ。1、pp。62–71
  18. ^ van Aalst、1月(2010)GoogleScholarを使用して教育におけるジャーナル記事の影響を推定する。教育研究者39:387。
  19. ^ a b Maslov、S。; Redner、S。(2008)。GoogleのPageRankアルゴリズムを引用ネットワークに拡張することの約束と落とし穴。Journal of Neuroscience、28、11103〜11105

参考文献