コンセプト検索

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

概念検索(または概念検索)は、電子的に保存された非構造化テキスト(たとえば、デジタルアーカイブ、電子メール、科学文献など)で、概念的に類似した情報を検索するために使用される自動情報検索方法です。検索クエリ言い換えれば、概念検索クエリに応答して取得された情報で表現されたアイデアは、クエリのテキストに含まれているアイデアに 関連しています。

開発

概念検索技術は、テキストの大規模な非構造化デジタルコレクションを処理するときに古典的なブールキーワード検索技術によって課せられる制限のために開発されました。キーワード検索では、多くの場合、関連性のない項目が多く含まれる(誤検知)、または同義語多義性の影響のために関連性の高い項目が多すぎる(誤検知)結果が返されます。同義語とは、同じ言語の2つ以上の単語の1つが同じ意味を持つことを意味し、多義語とは、多くの個々の単語が複数の意味を持つことを意味します。

多義性は、人間の言語を処理しようとするすべてのコンピュータシステムにとって大きな障害です。英語では、最も頻繁に使用される用語にはいくつかの一般的な意味があります。たとえば、「火」という言葉は次のことを意味します。雇用を終了する。起動する、または興奮させる(起動時のように)。英語で最も多義的な200の用語の場合、典型的な動詞には12を超える一般的な意味または意味があります。このセットの典型的な名詞には、8つ以上の常識があります。英語で最も多義的な2000の用語の場合、典型的な動詞には8つ以上の常識があり、典型的な名詞には5つ以上の常識があります。[1]

多義語と同義語の問題に加えて、キーワード検索では、誤ってスペルを間違えた単語や、単語の語幹(または語根)のバリエーション(たとえば、打撃と打撃)を除外できます。キーワード検索は、光学式文字認識(OCR)スキャンプロセスによって発生するエラーの影響も受けやすく、スキャンプロセス中にドキュメントのテキスト(ノイズの多いテキストと呼ばれることが多い)にランダムなエラーが発生する可能性があります。

概念検索は、キーワード検索テクノロジーのように文字列を単純に照合するのではなく、語義曖昧性解消(WSD)[2]やその他の手法を使用して、単語の実際の意味とその基礎となる概念を導き出すことにより、これらの課題を克服できます。

アプローチ

一般に、情報検索の研究と技術は、セマンティックと統計の2つの大きなカテゴリに分類できます。セマンティックカテゴリに分類される情報検索システムは、人間のユーザーが提供する自然言語テキストのある程度の構文的およびセマンティック分析を実装しようとします(計算言語学も参照)。統計カテゴリに分類されるシステムは、クエリとの一致度の統計的測定に基づいて結果を検索します。ただし、セマンティックカテゴリのシステムは、情報の検索と取得を支援するために統計的手法に依存することもよくあります。[3]

セマンティック処理機能を備えた情報検索システムを提供するための努力は、基本的に3つのアプローチを使用してきました。

補助構造

人工知能(AI)と自然言語処理(NLP)に基づくさまざまな手法が意味処理に適用されており、それらのほとんどは、統制語彙オントロジーなどの補助構造の使用に依存しています統制語彙(辞書とシソーラス)、およびオントロジーにより、より広い用語、より狭い用語、および関連する用語をクエリに組み込むことができます。[4]統制語彙は、ブールキーワードクエリの最も厳しい制約のいくつかを克服する1つの方法です。何年にもわたって、 WordNetの大規模な同義語セットなど、一般的に関心のある追加の補助構造が構築されてきました。[5] 従来の情報検索の検索モデルやデータ構造を再利用することで、WordNetなどの補助構造に基づく概念検索を効率的に実施できることが示された。[6] 後のアプローチでは、意味構造の範囲を拡大するために文法が実装されています。近年 、特定のドメイン(ドメインオントロジー)内の概念のセットを表し、用語間の関係を組み込むことができるデータモデルの作成も実装されています。

手作りの統制語彙は、情報検索および関連するテキスト分析操作の効率と包括性に貢献しますが、トピックが狭く定義され、用語が標準化されている場合に最適に機能します。統制語彙は、言語の急速な進化に追いつくために、広範な人間の入力と監視を必要とします。また、新しい用語やトピックを絶えず導入する必要があるため、無制限の数のトピックをカバーし、数千の固有の用語を含む非構造化テキストの量の増加にはあまり適していません。統制語彙はまた、特定の時点で特定の世界観をキャプチャする傾向があり、特定のトピック領域の概念が変更された場合に変更するのが困難になります。[7]

ローカル共起統計

このアプローチを組み込んだ情報検索システムは、用語のグループがドキュメント内の用語または文(たとえば、±5文または±50語)のスライディングウィンドウ内に一緒に表示される(共起する)回数をカウントします。これは、同じような文脈で一緒に出現する単語は同じような意味を持つという考えに基づいています。用語の共起を決定するために使用される用語と文のスライディングウィンドウが比較的小さいという意味で、ローカルです。

このアプローチは単純ですが、テキストのコレクションに含まれるセマンティック情報のごく一部しかキャプチャしません。最も基本的なレベルでは、多くの実験により、テキストに含まれる情報の約1/4のみが本質的にローカルであることが示されています。[8] さらに、この方法を最も効果的にするには、テキストの内容に関する事前の知識が必要です。これは、大規模な非構造化ドキュメントコレクションでは困難な場合があります。[7]

変換テクニック

セマンティック処理への最も強力なアプローチのいくつかは、数学的変換技術の使用に基づいています。 行列分解手法が最も成功しています。広く使用されている行列分解手法には、次のものがあります。[9]

行列分解手法はデータ駆動型であり、補助構造に関連する多くの欠点を回避します。また、本質的にグローバルであるため、ローカルの共起統計に基づく手法よりもはるかに堅牢な情報抽出とセマンティック情報の表現が可能です。[7]

独立成分分析は、自動化された方法でスパース表現を作成する手法であり[10]、計算の複雑さを軽減するために、半離散および非負行列アプローチは表現の精度を犠牲にします。[7]

特異値分解(SVD)は、1980年代後半にベル研究所のテキストに最初に適用されました。これは、テキストのコレクションに潜在する意味を見つける能力があるため、潜在意味索引付け(LSI)と呼ばれる手法の基盤として使用されました。当初、SVDの採用は、大規模なデータセットを処理するために必要なリソース要件のために時間がかかりました。ただし、スケーラビリティとパフォーマンスにおける以前の課題が克服されたため、LSIの使用は近年大幅に拡大しています。[11]そしてオープンソースですら。[12] LSIは、さまざまな情報検索およびテキスト処理アプリケーションで使用されていますが、その主なアプリケーションは、概念検索および自動化されたドキュメント分類です。[13]

を使用します

  • eDiscovery –概念ベースの検索テクノロジーは、企業が訴訟に備えるのを支援するために、電子文書開示(EDDまたはeDiscovery)にますます使用されています。eDiscoveryでは、構造化されていないテキストの大規模なコレクションを概念的にクラスター化、分類、および検索する機能は、従来の線形レビュー手法よりもはるかに効率的です。概念ベースの検索は、キーワード検索やブール検索よりも関連性の高い結果を生成する可能性が高い、信頼性が高く効率的な検索方法として受け入れられるようになっています。[14]
  • エンタープライズ検索とエンタープライズコンテンツ管理(ECM) –コンセプト検索テクノロジーはエンタープライズ検索で広く使用されています。企業内の情報量が増えるにつれ、非構造化テキストの大規模なコレクションを概念的にクラスター化、分類、および検索する機能が不可欠になりました。2004年、Gartner Groupは、専門家が情報の検索、取得、および管理に30%の時間を費やしていると推定しました。[15] 調査会社IDCは、従業員が情報の検索や既存のドキュメントの複製に費やす時間を削減することで、従業員2,000人の企業が年間最大3,000万ドルを節約できることを発見しました。[15]
  • コンテンツベースの画像検索(CBIR) –コンテンツベースのアプローチは、大規模な視覚的コーパスからのデジタル化された画像とビデオのセマンティック検索に使用されています。セマンティック問題に対処するための最も初期のコンテンツベースの画像検索システムの1つは、ImageScape検索エンジンでした。このシステムでは、ユーザーは、キーフレームを使用して1,000万を超える画像とビデオを含むWWWインデックス内の空間的に配置されたアイコンを使用して、空、木、水などの複数の視覚オブジェクトを直接クエリできます。システムは、情報理論を使用して、分類の不確実性を最小限に抑えるための最良の機能を決定しました。[16] セマンティックギャップは、CBIRに関してよく言及されます。セマンティックギャップとは、視覚データから抽出できる情報と、特定の状況で同じデータがユーザーに対して持つ解釈との間のギャップを指します。[17]マルチメディア情報検索 に関するACMSIGMMワークショップ[18]は、CBIRの研究に専念しています。
  • マルチメディアとパブリッシング–コンセプト検索は、マルチメディアとパブリッシング業界で使用され、さまざまな非構造化ソースからのニュース、技術情報、および対象分野の専門知識へのアクセスをユーザーに提供します。マルチメディア情報検索(MIR)のコンテンツベースの方法は、テキスト注釈が欠落しているか不完全な場合に特に重要になります。[16]
  • デジタルライブラリとアーカイブ–デジタルライブラリとデジタルアーカイブの画像、ビデオ、音楽、テキストアイテムは、概念検索技術を使用して、大規模なユーザーグループ(特にWeb上)がアクセスできるようになっています。たとえば、EBSCOPublishingによって開発されたビジネス情報監視およびアラート製品であるExecutiveDaily Brief(EDB)は、コンセプト検索テクノロジーを使用して、企業のエンドユーザーにさまざまなビジネスコンテンツを含むデジタルライブラリへのアクセスを提供します。同様の方法で、ミュージックゲノムプロジェクトは、コンセプト検索を使用して個々の音楽ライブラリまたは仮想ラジオ局を自発的に作成するPandoraを生み出しました。
  • Genomic Information Retrieval(GIR) – Genomic Information Retrieval(GIR)は、科学文献の曖昧さを克服するために、ゲノム文献データベースに適用される概念検索技術を使用します。
  • 人的資源の人員配置と採用–多くの人的資源の人員配置と採用組織は、概念検索テクノロジーを採用して、関連性の低いキーワード結果よりも正確で関連性の高い候補者の履歴書を提供する、関連性の高い履歴書検索結果を生成しています。

効果的な検索

概念検索の有効性は、検索対象のデータセットや、クエリの処理と結果の表示に使用される検索エンジンなど、さまざまな要素に依存する可能性があります。ただし、ほとんどの概念検索エンジンは、特定の種類のクエリに最適です。

  • 効果的なクエリは、意図した概念を適切に伝えるのに十分なテキストで構成されています。効果的なクエリには、全文、段落、またはドキュメント全体が含まれる場合があります。ほんの数語で構成されるクエリは、最も関連性の高い結果を返す可能性は低くなります。
  • 効果的なクエリには、検索の対象ではない概念がクエリに含まれていません。クエリにあまりにも多くの無関係な概念を含めると、結果アイテムの関連性に悪影響を与える可能性があります。たとえば、ミシシッピ川でのボート遊びに関する情報を検索すると、1967年の夏の真ん中の雨の日にミシシッピ川でのボート遊びを検索するよりも、関連する結果が返される可能性が高くなります。
  • 効果的なクエリは、検索対象のドキュメントに似たスタイルのフルテキストの自然言語スタイルで表現されます。たとえば、科学入門教科書からの抜粋で構成されるクエリを使用することは、検索対象のデータセットが高度な大学レベルの科学テキストで構成されている場合、概念検索にはそれほど効果的ではありません。クエリが実行されているアイテムの全体的な概念、スタイル、および言語をより適切に表す実質的なクエリは、一般により効果的です。

すべての検索戦略と同様に、経験豊富な検索者は通常、複数の検索を通じてクエリを絞り込みます。最初のシードクエリから始めて、概念的に関連性のある結果を取得します。その後、追加のクエリを作成および/または絞り込み、より関連性の高い結果を得ることができます。検索エンジンによっては、結果ドキュメントで見つかったクエリの概念を使用するのは、ドキュメントを選択して同様の検索機能を実行するのと同じくらい簡単です。結果の関連性を向上させるために用語や概念を追加してクエリを変更することを、クエリ拡張と呼びます。[19] WordNetなどのオントロジーの使用は、概念的に関連する単語でクエリを拡張するために研究されてきました。[20]

関連性フィードバック

関連性フィードバックは、クエリに対して返された結果が情報のニーズを満たしているかどうかをユーザーが判断するのに役立つ機能です。言い換えれば、関連性は、クエリではなく、情報のニーズに関連して評価されます。ドキュメントは、クエリ内のすべての単語が含まれているだけであるためではなく、指定された情報のニーズに対応している場合に関連します。[21] これは、最終的な結果セットを改善するために、ユーザーを検索プロセスに関与させる方法です。[21]ユーザーは、最初の結果に基づいてクエリを絞り込み、最終結果の品質を向上させることができます。

一般に、概念検索の関連性とは、クエリで表現された概念と、クエリに対して返される結果に含まれる概念との間の類似度を指します。結果の概念がクエリに含まれる概念に類似しているほど、結果の関連性が高いと見なされます。結果は通常、関連性によってランク付けおよびソートされ、最も関連性の高い結果が結果のリストの一番上に表示され、最も関連性の低い結果がリストの一番下に表示されます。

関連性フィードバックは、結果の関連性を改善するのに非常に効果的であることが示されています。[21] コンセプト検索は、クエリで使用されたのと同じ単語が含まれているかどうかに関係なく、クエリのコンセプトに関連するすべてのアイテムが返されるため、重要な結果アイテムを見逃すリスクを減らします。[15]

ランキングは、最新の情報検索システムの一部であり続けます。ただし、テキストに反映されている異種データ、規模、および非伝統的な談話タイプの問題は、検索エンジンがスタンドアロンシステムだけでなく、複雑な情報管理プロセスの統合コンポーネントになるという事実とともに、新しい種類を必要とします。クエリに対するシステム応答の数。たとえば、ランク付けされたリストの問題の1つは、結果アイテムの一部の間に存在する関係が明らかにならない可能性があることです。[22]

概念検索エンジンを評価するためのガイドライン

  1. 結果項目は、結果項目で使用される用語がクエリで使用される用語と異なる場合でも、クエリステートメントに含まれる概念によって表現される必要な情報に関連している必要があります。
  2. 結果アイテムは、関連性によってソートおよびランク付けする必要があります。
  3. 関連する結果項目をすばやく見つけて表示する必要があります。複雑なクエリでも、関連する結果をかなり迅速に返す必要があります。
  4. クエリの長​​さは固定されていない必要があります。つまり、クエリは必要と思われる限り長くすることができます。文、段落、またはドキュメント全体をクエリとして送信できます。
  5. コンセプトクエリでは、特別な構文や複雑な構文は必要ありません。クエリに含まれる概念は、特別なルールを使用せずに明確かつ目立つように表現できます。
  6. 概念、キーワード、およびメタデータを使用したクエリの組み合わせは許可する必要があります。[23]
  7. 結果アイテムの関連部分は、アイテムを選択し、検索エンジンに類似アイテムを見つけるように指示するだけで、クエリテキストとして使用できる必要があります。
  8. クエリ対応のインデックスは、比較的迅速に作成する必要があります。
  9. 検索エンジンは、横断検索を実行できる必要があります横断検索を使用すると、コンセプトクエリを使用して、複数のデータソースで情報を同時に検索し、それらをマージ、並べ替えて、結果に表示できます。
  10. 概念検索は、クエリテキストまたは検索対象のデータセットのテキストのいずれかで、スペルミス、誤植、またはOCRスキャンエラーの影響を受けないようにする必要があります

会議とフォーラム

正式な検索エンジンの評価は、長年にわたって継続されています。たとえば、テキスト検索会議(TREC)は、テキスト検索方法の大規模な評価に必要なインフラストラクチャを提供することにより、情報検索コミュニティ内の研究をサポートするために1992年に開始されました。今日の商用検索エンジンのほとんどには、TRECで最初に開発されたテクノロジーが含まれています。[24]

1997年に、国立情報学研究所IRシステムテストコレクション(NTCIR)と呼ばれるTRECの日本版が発売されました。NTCIRは、情報検索、質問応答、自動要約などの研究のための一連の評価ワークショップを実施しています。多言語情報アクセスの研究を支援するために、2001年にCross Language Evaluation Forum(CLEF)と呼ばれるヨーロッパの一連のワークショップが開始されました。2002年に、コンテンツ指向のXML検索システム の評価のためにXML検索の評価のためのイニシアチブ(INEX)が設立されました。

適合率と再現率は、情報検索システムを評価するための従来のパフォーマンス指標の2つです。精度は、ユーザーの情報ニーズに関連する、取得された結果ドキュメントの一部です。リコールは、結果ドキュメントとして返されるコレクション全体の関連ドキュメントの割合として定義されます。[21]

検索エンジンのテストと評価に使用されるワークショップと公開されているテストコレクションは、情報の管理と取得の方法に関する実質的な洞察を提供しましたが、この分野は、情報の検索、管理、および使用において人々や組織が直面する課題のほんの一部にすぎません。今ではたくさんの情報が利用可能です。[22] 実験的研究方法論が急速な変化のペースに追いつくことができなかったため、人々が今日利用可能な情報ツールをどのように使用しているかに関する科学的データはまだ不完全です。コンテキスト化された検索、個人情報管理、情報統合、タスクサポートなど、多くの課題に対処する必要があります。[22]

も参照してください

参照

  1. ^ Bradford、RB、Word Sense Disambiguation、 Content Analyst Company、LLC、米国特許7415462、2008年。
  2. ^ R. Navigli、 Word Sense Disambiguation:A Survey、ACM Computing Surveys、41(2)、2009年。
  3. ^ Greengrass、E.、情報検索:調査、2000年。
  4. ^ Dubois、C.、The Use of Thesauri in Online Retrieval、Journal of Information Science、8(2)、1984 March、pp.63-66。
  5. ^ Miller、G.、特集号、 WordNet:オンライン語彙データベース、Intl。Journal of Lexicography、3(4)、1990。
  6. ^ Fausto Giunchiglia、Uladzimir Kharkevich、およびIlyaZaihrayeu。コンセプト検索 は、ウェイバックマシンで2014年2月10日にアーカイブされました。ヨーロッパのセマンティックWeb会議の議事録、2009年。
  7. ^ a b c d ブラッドフォード、RB、なぜLSIなのか?潜在意味索引付けと情報検索、ホワイトペーパー、コンテンツアナリストカンパニー、LLC、2008年。
  8. ^ Landauer、T.、およびDumais、S.、プラトンの問題の解決策:知識の獲得、誘導、および表現の潜在意味解析理論、心理学レビュー、1997年、104(2)、211-240ページ。
  9. ^ Skillicorn、D.、複雑なデータセットの理解:マトリックス分解によるデータマイニング、CRC Publishing、2007年。
  10. ^ Honkela、T.、Hyvarinen、A.およびVayrynen、J.WordICA-独立成分分析による単語の言語表現の出現。自然言語工学、16(3):277-308、2010
  11. ^ Řehůřek、Radim(2011)。「自然言語処理における意味解析のスケーラビリティ」 (PDF)2015年1月27日取得
  12. ^ Gensimオープンソースソフトウェア
  13. ^ Dumais、S.、潜在意味解析、情報科学と技術のARISTレビュー、vol。38、第4章、2004年。
  14. ^ ワシントンDC障害者権利評議会対ワシントンメトロポリタントランジットオーソリティ、242 FRD 139(DDC 2007)、ジョージL.ポール&ジェイソンR.バロン、「情報インフレ:法制度は適応できるか?」13リッチ。JL&Tech。10(2007)。
  15. ^ a b c Laplanche、R.、Delgado、J.、Turck、M.、Concept Search Technology Goes BeyondKeywords、Information Outlook、2004年7月。
  16. ^ a b Lew、MS、Sebe、N.、Djeraba、C.、Jain、R.、Content-based Multimedia Information Retrieval:State of the Art and Challenges、ACM Transactions on Multimedia Computing、Communications、and Applications、2006年2月。
  17. ^ Datta R.、Joshi、D.、Li J.、Wang、JZ、画像検索:新しい時代のアイデア、影響、および傾向、ACM Computing Surveys、Vol。40、No。2、2008年4月。
  18. ^ 「アーカイブされたコピー」www.liacs.nl2014年3月7日にオリジナルからアーカイブされました2022年1月12日取得{{cite web}}:CS1 maint:タイトルとしてアーカイブされたコピー(リンク
  19. ^ Robertson、SE SpärckJones、K.、テキスト検索へのシンプルで実証済みのアプローチ、テクニカルレポート、ケンブリッジ大学コンピューター研究所、1994年12月。
  20. ^ Navigli、R.、Velardi、P .ウェイバックマシンで2012年4月26日にアーカイブされたオントロジーベースのクエリ拡張戦略の分析 Proc。適応型テキスト抽出とマイニングに関するワークショップ(ATEM 2003)第14回欧州機械学習会議(ECML 2003)、クロアチア、ツァヴタット-ドゥブロヴニク、2003年9月22〜26日、42〜49ページ
  21. ^ a b c d Manning、CD、Raghavan P.、SchützeH.、Introduction to Information Retrieval、Cambridge University Press、2008年。
  22. ^ a b c Callan、J.、Allan、J.、Clarke、CLA、Dumais、S.、Evans、D.、A.、Sanderson、M.、Zhai、C.、Meeting of the MINDS:An Information Retrieval Researchアジェンダ、ACM、SIGIRフォーラム、Vol。41 No. 2、2007年12月。
  23. ^ Rehurek、R.、逆フルテキストインデックスに基づくベクトル類似性検索の複合システム、 ScaleText Search Engine、出願中の米国特許15726803、2017年。
  24. ^ Croft、B.、Metzler、D.、Strohman、T.、Search Engines、Information Retrieval in Practice、Addison Wesley、2009。

外部リンク