文書分類

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

文書分類または文書分類は、図書館学情報科学、およびコンピュータサイエンスの問題です。タスクは、ドキュメントを1つ以上のクラスまたはカテゴリに割り当てることです。これは、「手動で」(または「知的に」)またはアルゴリズムで実行できます。文書の知的分類は主に図書館学の領域でしたが、文書のアルゴリズム分類は主に情報科学とコンピューター科学にあります。ただし、問題は重複しているため、ドキュメント分類に関する学際的な研究が行われています。

分類される文書は、テキスト、画像、音楽などである可能性があります。各種類の文書には、特別な分類の問題があります。特に指定されていない場合、テキスト分類が暗示されます。

ドキュメントは、主題またはその他の属性(ドキュメントの種類、作成者、印刷年など)に従って分類できます。この記事の残りの部分では、主題の分類のみが考慮されます。ドキュメントの主題分類には、コンテンツベースのアプローチとリクエストベースのアプローチの2つの主要な哲学があります。

「コンテンツベース」と「リクエストベース」の分類

コンテンツベースの分類は、ドキュメント内の特定のサブジェクトに与えられた重みが、ドキュメントが割り当てられるクラスを決定する分類です。たとえば、図書館での分類の一般的な規則では、本の内容の少なくとも20%は、その本が割り当てられているクラスに関するものでなければなりません。[1]自動分類では、指定された単語がドキュメントに表示される回数である可能性があります。

リクエスト指向の分類(またはインデックス作成)は、ユーザーからの予想されるリクエストがドキュメントの分類方法に影響を与える分類です。分類器は、「このエンティティはどの記述子の下にあるべきですか?」と自問します。そして、「考えられるすべてのクエリを考えて、手元のエンティティが関連するクエリを決定します」(Soergel、1985、p。230 [2])。

リクエスト指向の分類は、特定のオーディエンスまたはユーザーグループを対象とした分類である場合があります。たとえば、フェミニスト研究用の図書館またはデータベースは、歴史的図書館と比較した場合、文書の分類/索引付けが異なる場合があります。ただし、要求指向の分類をポリシーベースの分類として理解することをお勧めします。分類はいくつかの理想に従って行われ、分類を行うライブラリまたはデータベースの目的を反映しています。このように、それは必ずしもユーザーの調査に基づく一種の分類または索引付けではありません。使用またはユーザーに関する経験的データが適用される場合にのみ、要求指向の分類はユーザーベースのアプローチと見なされます。

分類と索引付け

ドキュメントのクラスへの割り当て(「分類」)とサブジェクトのドキュメントへの割り当て(「サブジェクトインデックス」)が区別されることがありますが、 Frederick Wilfrid Lancasterが主張しているように、この区別は実を結びません。「これらの用語の区別はまったく意味がなく、混乱を引き起こすだけです」(Lancaster、2003、p。21 [3])。この区別が純粋に表面的なものであるという見方は、分類がシステムはシソーラスに変換される可能性があり、その逆も可能です(Aitchison、1986、[4] 2004; [5] Broughton、2008; [6] Riesthuis&Bliedung、1991 [7])。したがって、ドキュメントにラベルを付ける行為(たとえば、統制語彙からドキュメントに用語を割り当てることによる)は、同時に、そのドキュメントをその用語によってインデックス付けされたドキュメントのクラスに割り当てることです(Xとしてインデックス付けまたは分類されたすべてのドキュメントはに属します)同じクラスのドキュメント)。つまり、ドキュメントにラベルを付けることは、そのラベルの下でインデックスが付けられたドキュメントのクラスにドキュメントを割り当てることと同じです。

自動文書分類(ADC)

自動ドキュメント分類タスクは、3つの種類に分けることができます。外部メカニズム(人間のフィードバックなど)がドキュメントの正しい分類に関する情報を提供する監視付きドキュメント分類、分類を実行する必要がある監視なしドキュメント分類(ドキュメントクラスタリングとも呼ばれます)完全に外部情報を参照せず、半監視文書分類[8]で、文書の一部が外部メカニズムによってラベル付けされます。利用可能なさまざまなライセンスモデルの下でいくつかのソフトウェア製品があります。[9] [10] [11] [12] [13] [14]

テクニック

自動ドキュメント分類手法には次のものがあります。

アプリケーション

分類手法はに適用されています

  • スパムフィルタリング、正当な電子メールから電子メールスパムメッセージを識別しようとするプロセス
  • 電子メールルーティング、トピックに応じて特定のアドレスまたはメールボックスに一般的なアドレスに送信された電子メールを送信します[15]
  • 言語識別、テキストの言語を自動的に決定
  • ジャンル分類、テキストのジャンルを自動的に決定する[16]
  • 読みやすさの評価。さまざまな年齢層や読者のタイプに適した資料を見つけるため、またはより大きなテキスト簡略化システムの一部として、テキストの読みやすさの程度を自動的に判断します。
  • 感情分析。あるトピックまたは文書の全体的な文脈上の極性に関する話者または作家の態度を決定します。
  • 公衆衛生監視におけるソーシャルメディアを使用した健康関連の分類[17]
  • 記事のトリアージ。たとえば、生物学で手動でキュレートされた注釈データベースを生成するための最初のステップとして行われているように、手動の文献キュレーションに関連する記事を選択します[18]。
  • ユーモアの検出。チャットボットやパーソナルアシスタントのユースケースを使用して、指定された短いテキストを真剣に受け止める必要があるかどうかを自動的に判断します。[19]

も参照してください

さらに読む

参照

  1. ^ 米国議会図書館(2008)。主題の見出しマニュアル。ワシントンDC:米国議会図書館、政策および基準部門。(シートH 180:「作業の少なくとも20%を構成するトピックにのみ見出しを割り当てます。」)
  2. ^ Soergel、Dagobert(1985)。情報の整理:データベースと検索システムの原則フロリダ州オーランド:アカデミックプレス。
  3. ^ ランカスター、FW(2003)。理論と実践における索引付けと抽象化。図書館協会、ロンドン。
  4. ^ Aitchison、J.(1986)。「シソーラスのソースとしての分類:シソーラスの用語と構造のソースとしてのHEブリスの書誌分類。」Journal of Documentation、Vol。42 No. 3、pp.160-181。
  5. ^ Aitchison、J.(2004)。「BC2のシソーラス:ブリスミュージックのスケジュールから導き出された実験的なシソーラスで明らかになった問題と可能性。」ブリス分類速報、Vol。46、20〜26ページ。
  6. ^ ブロートン、V。(2008)。" sdfhhdhgdgfbaファセット用語の基礎としてのファセット分類:Bliss Bibliographic Classification(2nd Ed。)における分類された構造のシソーラス形式への変換。]" Axiomathes、Vol。18 No.2、pp.193-210。
  7. ^ Riesthuis、GJA、およびBliedung、St.(1991)。「UDCのソーサリゼーション。」知識組織化とヒューマンインターフェースのためのツール、Vol。2、pp.109-117。Index Verlag、フランクフルト。
  8. ^ ロッシ、RG、ロペス、A。d。A.、およびRezende、SO(2016)。テキストのトランスダクティブ分類を改善するための2部異種ネットワークにおける最適化とラベル伝播情報処理と管理、52(2):217–257。
  9. ^ 「インタラクティブな自動ドキュメント分類プロトタイプ」 (PDF)2017年11月15日にオリジナル (PDF)からアーカイブされました2017年11月14日取得
  10. ^ ウェイバックマシンで2015年4月24日にアーカイブされたインタラクティブな自動ドキュメント分類プロトタイプ
  11. ^ ドキュメント分類-Artsyl
  12. ^ Windows用のABBYYFineReaderEngine 11
  13. ^ 分類子-解毒剤
  14. ^ 「タフなプロジェクトのための3つの文書分類方法」www.bisok.com 2021年8月4日取得
  15. ^ Stephan Busemann、Sven Schmeier、Roman G. Arens(2000)。コールセンターでのメッセージ分類Sergei Nirenburg、Douglas Appelt、Fabio Ciravegna、Robert Dale編、Proc。第6回応用自然言語処理会議 (ANLP'00)、pp。158-165、ACL。
  16. ^ サンティーニ、マリーナ; ロッソ、マーク(2008)、ジャンル対応アプリケーションのテスト:予備評価(PDF)、BCS IRSGシンポジウム:情報アクセスの将来の方向性、ロンドン、英国、54〜63ページ、2019年にオリジナル(PDF)からアーカイブ-11-15 、2011年10月21日取得
  17. ^ X. Dai、M。Bikdash、B。Meyer、「ソーシャルメディアから公衆衛生監視へ:Twitter分類のための単語埋め込みベースのクラスタリング手法」、SoutheastCon 2017、ノースカロライナ州シャーロット、2017年、1〜7ページ。 土井 10.1109 / SECON.2017.7925400
  18. ^ クラリンジャー、M; ライトナー、F; ロドリゲス-ペナゴス、C; バレンシア、A(2008)。「 BioCreativeIIのタンパク質間相互作用アノテーション抽出タスクの概要ゲノム生物学9補足2:S4。土井10.1186/gb-2008-9-s2-s4PMC2559988_ PMID18834495_  
  19. ^ Annamoradnejad、I.(2020)。コルベール:ユーモアの検出にbert文の埋め込みを使用していますarXivプレプリントarXiv:2004.12765。

外部リンク