関連性(情報検索)

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

では、情報科学情報検索関連性は、ドキュメントの検索された文書やセットがどのように満たしているかをうまく表した情報の必要性、ユーザのを。関連性には、結果の適時性、権限、または新規性などの懸念が含まれる場合があります。

歴史

関連情報を見つける問題に関する懸念は、少なくとも17世紀の科学雑誌の最初の出版にまでさかのぼります。[要出典]

関連性の正式な研究は、後に計量書誌学と呼ばれるものの研究から20世紀に始まりました。 1930年代と1940年代に、SCブラッドフォードは「関連する」という用語を使用して、主題に関連する記事を特徴付けました(ブラッドフォードの法則を参照)。 1950年代に、最初の情報検索システムが登場し、研究者は無関係な記事の検索が重要な関心事であると指摘しました。 1958年、BCヴィッケリーは、科学情報に関する国際会議での演説で、関連性の概念を明確にしました。[1]

1958年以来、情報科学者は関連性の定義を調査し、議論してきました。議論の特定の焦点は、「主題との関連性」または「トピックの関連性」と「ユーザーの関連性」の区別でした。[1]

評価

情報検索コミュニティは、1960年代初頭のクランフィールド実験から始まり、情報検索研究の主要な評価フレームワークとして今日まで続くTREC評価に至るまで、トピックの関連性を測定するためのテストコレクションとベンチマークタスクの使用を強調してきました[2]

情報検索システムがトピックに関連する結果をどれだけうまく検索したかを評価するために、検索された結果の関連性を定量化する必要があります。クランフィールドスタイルの評価、これは典型的に割り当てることを含む重要度レベルを各検索結果、として知られているプロセスに関連性評価。関連性レベルは、バイナリ(結果が関連性がある、または関連性がないことを示す)、または等級付け(結果のトピックと情報の必要性の間でさまざまな程度の一致があることを示す)にすることができます。検索結果に関連性レベルが割り当てられると、情報検索パフォーマンス測定値を使用して、検索システムの出力の品質を評価できます。

トピックの関連性のみに焦点を当てているのとは対照的に、情報科学コミュニティは、ユーザーの関連性を考慮したユーザー研究を強調しています。[3]これらの研究は、多くの場合、人間とコンピューターの相互作用の側面に焦点を当てています人間とコンピューターの情報検索も参照)。

クラスタリングと関連性

クラスタ仮説が提唱し、CJバンRijsbergen、1979年には、互いに類似している二つの文書が同一の情報ニーズに関連するものの高い可能性を持っていると主張しています。埋め込み相似空間に関して、クラスター仮説はグローバルまたはローカルで解釈できます。[4] グローバルな解釈は、ドキュメント間の類似性から派生した基礎となるトピックの固定セットが存在することを前提としています。次に、これらのグローバルクラスターまたはその代表を使用して、2つのドキュメントの関連性を関連付けることができます(たとえば、同じクラスター内の2つのドキュメントは両方とも同じリクエストに関連している必要があります)。この精神の方法は次のとおりです。

  • クラスタベースの情報検索[5] [6]
  • 潜在意味解析やそれに相当する言語モデリングなどのクラスターベースのドキュメント拡張[7] クラスターが、単独で、または組み合わせて、関連する可能性のあるドキュメントのセットを正常にモデル化することを保証することが重要です。

最も顕著なので進ん第二の解釈、エレン・ボーヒーズ[8]は 、文書間のローカルの関係に焦点を当てています。ローカル解釈により、コレクション内のクラスターの数やサイズをモデル化する必要がなくなり、複数のスケールでの関連性が可能になります。この精神の方法は次のとおりです。

ローカルメソッドには、正確で適切なドキュメントの類似性の尺度が必要です

問題と代替案

最も関連性の高いドキュメントは、必ずしも検索結果の最初のページに表示するのに最も役立つドキュメントであるとは限りません。たとえば、2つの重複するドキュメントは個別に非常に関連性があると見なされる場合がありますが、そのうちの1つを表示することだけが役立ちます。この欠点を克服するために、「最大限界関連性」(MMR)と呼ばれる手段が提案されています。以前の結果から得られる新しい情報の量に関してのみ、各ドキュメントの関連性を考慮します。[13]

場合によっては、クエリの解釈があいまいになったり、さまざまな潜在的な応答があったりすることがあります。結果セットの有用性を評価する際には、多様な結果を提供することを検討することができます。[14]

も参照してください

参考文献

  1. ^ a b Mizzaro、Stefano(1997)。「関連性:歴史全体」 (PDF)アメリカ情報科学学会誌48(9):810–832。土井10.1002 /(SICI)1097-4571(199709)48:9 <810 :: AID-ASI6> 3.0.CO; 2-U
  2. ^ Sanderson、P。Clough、M。(2013-06-15)。「テストコレクションを使用した情報検索システムのパフォーマンスの評価」informationr.net 2020528日取得
  3. ^ Yunjie、Xu(2006)。「関連性の判断:情報ユーザーは話題性を超えて何を考慮しますか?」アメリカ情報科学技術学会誌57(7):961–973。土井10.1002 /asi.20361
  4. ^ F. Diaz、クエリベースの検索スコアの自己相関と正則化。博士論文、マサチューセッツ大学アマースト校、マサチューセッツ州アマースト、2008年2月、第3章。
  5. ^ クロフト、W。ブルース(1980)。「分類に基づくクラスター検索のモデル」。情報システム5(3):189–195。土井10.1016 / 0306-4379(80)90010-1
  6. ^ a b グリフィス、アラン; ラックハースト、H。クレア; ウィレット、ピーター(1986)。「ドキュメント検索システムでのドキュメント間類似性情報の使用」(PDF)アメリカ情報科学学会誌37:3–11。土井10.1002 /(SICI)1097-4571(198601)37:1 <3 :: AID-ASI1> 3.0.CO; 2-O
  7. ^ X.劉とWBクロフト、「言語モデルを使用して、クラスタベースの検索SIGIR '04で、」:情報検索における研究開発の第27回年次国際会議の議事録、(ニューヨーク、NY、USA)、頁186。 –193、ACM Press、2004。
  8. ^ a b E. M. Voorhees、「クラスター仮説の再検討」、SIGIR '85:情報検索の研究開発に関する第8回国際ACM SIGIR会議の議事録、(ニューヨーク、ニューヨーク、米国)、188〜196ページ。 ACM Press、1985年。
  9. ^ S. Preece、情報検索のための拡散アクティベーションネットワークモデル。博士論文、イリノイ大学アーバナシャンペーン校、1981年。
  10. ^ T. Qin、T.-Y。劉、X.-D。張智成、張智成、W.-Y。Ma、「 Web検索の関連性伝播の研究」、SIGIR '05:情報検索の研究開発に関する第28回国際ACM SIGIR会議の議事録、(ニューヨーク、ニューヨーク、米国)、408〜415ページ。 ACM Press、2005年。
  11. ^ A.シングハルとF.ペレイラ、「音声検索のための文書の拡大SIGIR '99での、」:情報検索における研究開発第22回国際ACM SIGIR会議の議事録、(ニューヨーク、NY、USA)、頁。 34–41、ACM Press、1999年。
  12. ^ 秦、タオ; 劉、タイヤン; 張旭東; 陳、鄭; Ma、Wei-Ying(2005)。「ウェブ検索のための関連性伝播の研究」(PDF)情報検索における研究開発に関する第28回国際ACMSIGIR会議の議事録NS。408. doi10.1145 /1076034.1076105ISBN  1595930345
  13. ^ Carbonell、Jaime; ゴールドスタイン、ジェイド(1998)。「MMRの使用、ドキュメントの並べ替えと要約の作成のための多様性ベースの再ランク付け」。情報検索における研究開発に関する第21回国際ACMSIGIR会議の議事録pp。335–336。CiteSeerX 10.1.1.50.2490土井10.1145 /290941.291025ISBN  978-1581130157
  14. ^ 「ドキュメント検索(DDR)2012の多様性」

さらに読む