Classement des documents

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

La classification des documents ou la catégorisation des documents est un problème en bibliothéconomie, en science de l'information et en informatique . La tâche consiste à affecter un document à une ou plusieurs classes ou catégories . Cela peut être fait « manuellement » (ou « intellectuellement ») ou de manière algorithmique . La classification intellectuelle des documents a principalement été du ressort de la bibliothéconomie, tandis que la classification algorithmique des documents relève principalement des sciences de l'information et de l'informatique. Cependant, les problèmes se chevauchent et il existe donc des recherches interdisciplinaires sur la classification des documents.

Les documents à classer peuvent être des textes, des images, de la musique, etc. Chaque type de document possède ses propres problèmes de classification. Sauf indication contraire, la classification du texte est implicite.

Les documents peuvent être classés selon leurs sujets ou selon d'autres attributs (tels que le type de document, l'auteur, l'année d'impression, etc.). Dans le reste de cet article, seule la classification par sujet est considérée. Il existe deux philosophies principales de classification des documents par sujet : l'approche basée sur le contenu et l'approche basée sur la demande.

Classification "basée sur le contenu" versus "basée sur la demande"

La classification basée sur le contenu est une classification dans laquelle le poids accordé à des sujets particuliers dans un document détermine la classe à laquelle le document est affecté. C'est, par exemple, une règle courante pour la classification dans les bibliothèques, qu'au moins 20% du contenu d'un livre doit concerner la classe à laquelle le livre est affecté. [1] Dans la classification automatique, il pourrait s'agir du nombre de fois que des mots donnés apparaissent dans un document.

La classification orientée vers la demande (ou indexation) est une classification dans laquelle la demande anticipée des utilisateurs influence la façon dont les documents sont classés. Le classificateur se demande : « Sous quels descripteurs doit-on retrouver cette entité ? et « penser à toutes les requêtes possibles et décider pour lesquelles l'entité en question est pertinente » (Soergel, 1985, p. 230 [2] ).

La classification orientée vers la demande peut être une classification qui cible un public ou un groupe d'utilisateurs particulier. Par exemple, une bibliothèque ou une base de données d'études féministes peut classer/indexer les documents différemment par rapport à une bibliothèque historique. Il est probablement préférable, cependant, de comprendre la classification orientée vers la demande comme une classification basée sur les politiques : la classification est effectuée selon certains idéaux et reflète l'objectif de la bibliothèque ou de la base de données effectuant la classification. De cette manière, il ne s'agit pas nécessairement d'une sorte de classification ou d'indexation basée sur des études d'utilisateurs. Ce n'est que si des données empiriques sur l'utilisation ou les utilisateurs sont appliquées que la classification axée sur la demande doit être considérée comme une approche basée sur l'utilisateur.

Classification versus indexation

Parfois, une distinction est faite entre l'attribution de documents à des classes (" classification ") et l'attribution de sujets à des documents (" indexation de sujets "), mais comme l'a soutenu Frederick Wilfrid Lancaster , cette distinction n'est pas fructueuse. « Ces distinctions terminologiques, écrit-il, n'ont aucun sens et ne servent qu'à semer la confusion » (Lancaster, 2003, p. 21 [3] ). L'opinion selon laquelle cette distinction est purement superficielle est également étayée par le fait qu'une classification peut être transformé en thésaurus et vice versa (cf., Aitchison, 1986, [4] 2004 ; [5] Broughton, 2008 ; [6] Riesthuis & Bliedung, 1991 [7]). Par conséquent, le fait d'étiqueter un document (par exemple en affectant un terme d'un vocabulaire contrôlé à un document) revient en même temps à affecter ce document à la classe des documents indexés par ce terme (tous les documents indexés ou classés comme X appartiennent à la même classe de documents). En d'autres termes, étiqueter un document revient à l'affecter à la classe de documents indexés sous cette étiquette.

Classification automatique des documents (ADC)

Les tâches de classification automatique des documents peuvent être divisées en trois types : la classification supervisée des documents où un mécanisme externe (tel que la rétroaction humaine) fournit des informations sur la classification correcte des documents, la classification non supervisée des documents (également connue sous le nom de regroupement de documents ), où la classification doit être effectuée entièrement sans référence à des informations externes, et la classification de documents semi-supervisée , [8] où des parties des documents sont étiquetées par le mécanisme externe. Il existe plusieurs produits logiciels sous différents modèles de licence disponibles. [9] [10] [11] [12] [13] [14]

Technique

Les techniques de classification automatique des documents comprennent :

Candidatures

Des techniques de classification ont été appliquées à

  • filtrage anti-spam , un processus qui tente de distinguer les spams des e-mails légitimes
  • routage d'e- mails , envoi d'un e-mail envoyé à une adresse générale vers une adresse ou une boîte aux lettres spécifique selon le sujet [15]
  • identification de la langue , détermination automatique de la langue d'un texte
  • classification des genres, déterminant automatiquement le genre d'un texte [16]
  • évaluation de la lisibilité , déterminant automatiquement le degré de lisibilité d'un texte, soit pour trouver des matériaux appropriés pour différents groupes d'âge ou types de lecteurs, soit dans le cadre d'un système de simplification de texte plus large
  • analyse des sentiments , détermination de l'attitude d'un locuteur ou d'un écrivain par rapport à un sujet ou à la polarité contextuelle globale d'un document.
  • classification liée à la santé utilisant les médias sociaux dans la surveillance de la santé publique [17]
  • triage d'articles, sélection d'articles pertinents pour la curation manuelle de la littérature, par exemple comme cela est fait comme première étape pour générer des bases de données d'annotations curatées manuellement en biologie [18]

Voir aussi

Lectures complémentaires

Références

  1. ^ Bibliothèque du Congrès (2008). Le manuel des vedettes-matières. Washington, DC. : Bibliothèque du Congrès, Division des politiques et des normes. (Feuille H 180 : "N'attribuez des titres qu'aux sujets qui représentent au moins 20 % du travail.")
  2. ^ Soergel, Dagobert (1985). Organisation de l'information : principes des bases de données et des systèmes de recherche . Orlando, FL : Presse académique.
  3. ^ Lancaster, FW (2003). Indexation et abstraction en théorie et en pratique. Association des bibliothèques, Londres.
  4. ^ Aitchison, J. (1986). "Une classification comme source pour le thésaurus: La classification bibliographique de HE Bliss comme source des termes et de la structure du thésaurus." Journal de documentation, Vol. 42 n° 3, p. 160-181.
  5. ^ Aitchison, J. (2004). "Thesaurus de BC2: problèmes et possibilités révélés dans un thésaurus expérimental dérivé du programme Bliss Music." Bliss Classement Bulletin, Vol. 46, p. 20-26.
  6. ^ Broughton, V. (2008). " Une classification à facettes comme base d'une terminologie à facettes : conversion d'une structure classée au format thésaurus dans la classification bibliographique de Bliss (2e éd.).]" Axiomathes, vol. 18 n° 2, p. 193-210.
  7. ^ Riesthuis, GJA, & Bliedung, St. (1991). "Thésaurification de l'UDC." Outils pour l'organisation des connaissances et l'interface humaine, Vol. 2, p. 109-117. Index Verlag, Francfort.
  8. ^ Rossi, RG, Lopes, A. d. A., et Rezende, SO (2016). Optimisation et propagation d'étiquettes dans des réseaux hétérogènes bipartites pour améliorer la classification transductive de textes . Traitement et gestion de l'information, 52(2):217–257.
  9. ^ "Un prototype interactif de classification automatique de documents" (PDF) . Archivé de l'original (PDF) le 2017-11-15 . Récupéré le 14/11/2017 .
  10. ^ Prototype interactif de classification automatique des documents Archivé le 24 avril 2015 à la Wayback Machine
  11. ^ Classification des documents - Artsyl
  12. ^ ABBYY FineReader Engine 11 pour Windows
  13. ^ Classificateur - Antidot
  14. ^ "3 méthodes de classification de documents pour des projets difficiles" . www.bisok.com . Récupéré le 04/08/2021 .
  15. ^ Stephan Busemann, Sven Schmeier et Roman G. Arens (2000). Classification des messages dans le centre d'appels . Dans Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna et Robert Dale, eds., Proc. 6e Conférence sur le traitement appliqué du langage naturel. (ANLP'00), pages 158-165, ACL.
  16. ^ Santini, Marine; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF) , BCS IRSG Symposium: Future Directions in Information Access, Londres, Royaume-Uni, pp. 54–63, archivé de l'original (PDF) en 2019 -11-15 , récupéré le 21/10/2011
  17. ^ X. Dai, M. Bikdash et B. Meyer, "Des médias sociaux à la surveillance de la santé publique : méthode de regroupement basée sur l'intégration de mots pour la classification Twitter", SoutheastCon 2017, Charlotte, Caroline du Nord, 2017, pp. 1-7. doi : 10.1109/SECON.2017.7925400
  18. ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valence, A (2008). "Aperçu de la tâche d'extraction d'annotation d'interaction protéine-protéine de Bio Creative II" . Biologie du génome . 9 Supplément 2 : S4. doi : 10.1186/gb-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .  

Liens externes