Récupération de l'information

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

La recherche d'informations ( RI ) en informatique et en sciences de l'information est le processus d'obtention des ressources du système d'information qui sont pertinentes pour un besoin d'information à partir d'un ensemble de ces ressources. Les recherches peuvent être basées sur le texte intégral ou sur une autre indexation basée sur le contenu. La recherche d'informations est la science qui consiste à rechercher des informations dans un document, à rechercher les documents eux-mêmes, ainsi qu'à rechercher les métadonnées qui décrivent les données et les bases de données de textes, d'images ou de sons.

Les systèmes automatisés de recherche d'informations sont utilisés pour réduire ce qu'on appelle la surcharge d'informations . Un système IR est un système logiciel qui permet d'accéder à des livres, des revues et d'autres documents ; stocke et gère ces documents. Les moteurs de recherche Web sont les applications IR les plus visibles.

Vue d'ensemble

Un processus de récupération d'informations commence lorsqu'un utilisateur entre une requête dans le système. Les requêtes sont des déclarations formelles de besoins d'information, par exemple des chaînes de recherche dans les moteurs de recherche Web. Dans la recherche d'informations, une requête n'identifie pas de manière unique un seul objet dans la collection. Au lieu de cela, plusieurs objets peuvent correspondre à la requête, peut-être avec différents degrés de pertinence .

Un objet est une entité représentée par des informations dans une collection de contenu ou une base de données . Les requêtes des utilisateurs sont comparées aux informations de la base de données. Cependant, contrairement aux requêtes SQL classiques d'une base de données, dans la recherche d'informations, les résultats renvoyés peuvent ou non correspondre à la requête, de sorte que les résultats sont généralement classés. Ce classement des résultats est une différence clé de la recherche de récupération d'informations par rapport à la recherche de base de données. [1]

Selon l' application , les objets de données peuvent être, par exemple, des documents texte, des images, [2] de l'audio, [3] des cartes mentales [4] ou des vidéos. Souvent, les documents eux-mêmes ne sont pas conservés ou stockés directement dans le système IR, mais sont plutôt représentés dans le système par des substituts de document ou des métadonnées .

La plupart des systèmes IR calculent un score numérique sur la mesure dans laquelle chaque objet de la base de données correspond à la requête et classent les objets en fonction de cette valeur. Les objets les mieux classés sont alors présentés à l'utilisateur. Le processus peut ensuite être itéré si l'utilisateur souhaite affiner la requête. [5]

Historique

il y a ... une machine appelée Univac ... dans laquelle les lettres et les chiffres sont codés sous la forme d'un motif de points magnétiques sur une longue bande d'acier. Par ce moyen, le texte d'un document, précédé de son symbole de code de sujet, peut être enregistré ... la machine ... sélectionne et tape automatiquement les références qui ont été codées de la manière souhaitée à un rythme de 120 mots par minute

—  JE Holmström, 1948

L'idée d'utiliser des ordinateurs pour rechercher des informations pertinentes a été popularisée dans l'article As We May Think de Vannevar Bush en 1945 . dans les années 1920 et 1930 - qui recherchaient des documents stockés sur film. [7] La ​​première description d'un ordinateur recherchant l'information a été décrite par Holmstrom en 1948, [8] détaillant une première mention de l' ordinateur Univac . Les systèmes automatisés de recherche d'informations ont été introduits dans les années 1950 : l'un d'entre eux figurait même dans la comédie romantique de 1957, Desk Set. Dans les années 1960, le premier grand groupe de recherche sur la recherche d'informations a été formé par Gerard Salton à Cornell. Dans les années 1970, plusieurs techniques de récupération différentes s'étaient révélées efficaces sur de petits corpus de texte tels que la collection Cranfield (plusieurs milliers de documents). [6] Les systèmes de récupération à grande échelle, tels que le système Lockheed Dialog, sont entrés en service au début des années 1970.

En 1992, le département américain de la Défense et le National Institute of Standards and Technology (NIST) ont coparrainé la Text Retrieval Conference (TREC) dans le cadre du programme de texte TIPSTER. L'objectif était d'examiner la communauté de la recherche d'informations en fournissant l'infrastructure nécessaire à l'évaluation des méthodologies de recherche de textes sur une très grande collection de textes. Cela a catalysé la recherche sur des méthodes qui s'adaptent à d'énormes corpus. L'introduction des moteurs de recherche sur le Web a encore accru le besoin de systèmes de récupération à très grande échelle.

Candidatures

Les domaines où les techniques de recherche d'informations sont employées comprennent (les entrées sont par ordre alphabétique dans chaque catégorie):

Applications générales

Applications spécifiques à un domaine

Autres méthodes de récupération

Les méthodes/techniques dans lesquelles les techniques de recherche d'informations sont employées comprennent :

Types de modèles

Catégorisation des modèles IR (traduit de l'entrée allemande , source originale Dominik Kuropka ).

Pour récupérer efficacement des documents pertinents par des stratégies IR, les documents sont généralement transformés en une représentation appropriée. Chaque stratégie de récupération intègre un modèle spécifique pour ses besoins de représentation de document. L'image de droite illustre la relation entre certains modèles courants. Dans l'image, les modèles sont classés selon deux dimensions : la base mathématique et les propriétés du modèle.

Première dimension : base mathématique

Deuxième dimension : propriétés du modèle

  • Les modèles sans interdépendance des termes traitent différents termes/mots comme indépendants. Ce fait est généralement représenté dans les modèles d'espace vectoriel par l' hypothèse d' orthogonalité des vecteurs de termes ou dans les modèles probabilistes par une hypothèse d' indépendance des variables de terme.
  • Les modèles avec des interdépendances de termes immanentes permettent une représentation des interdépendances entre les termes. Cependant, le degré d'interdépendance entre deux termes est défini par le modèle lui-même. Il est généralement dérivé directement ou indirectement (par exemple par réduction dimensionnelle ) de la cooccurrence de ces termes dans l'ensemble des documents.
  • Les modèles avec des interdépendances transcendantes des termes permettent une représentation des interdépendances entre les termes, mais ils n'indiquent pas comment l'interdépendance entre deux termes est définie. Ils s'appuient sur une source externe pour le degré d'interdépendance entre deux termes. (Par exemple, un humain ou des algorithmes sophistiqués.)

de performance et

L'évaluation d'un système de recherche d'informations est le processus d'évaluation de la manière dont un système répond aux besoins d'information de ses utilisateurs. En général, la mesure considère une collection de documents à rechercher et une requête de recherche. Les métriques d'évaluation traditionnelles, conçues pour la récupération booléenne [ clarification nécessaire ] ou la récupération top-k, incluent la précision et le rappel . Toutes les mesures supposent une notion de vérité fondamentale de la pertinence : chaque document est connu pour être pertinent ou non pertinent pour une requête particulière. En pratique, les requêtes peuvent être mal posées et il peut y avoir différentes nuances de pertinence.

Chronologie

  • Avant les années 1900
    1801 : Joseph Marie Jacquard invente le métier Jacquard , première machine à utiliser des cartes perforées pour contrôler une séquence d'opérations.
    Années 1880 : Herman Hollerith invente une tabulatrice de données électromécanique utilisant des cartes perforées comme support lisible par machine.
    1890 Cartes Hollerith , poinçons et tabulateurs utilisés pour traiter les données du recensement américain de 1890 .
  • Années 1920-1930
    Emanuel Goldberg dépose des brevets pour sa "machine statistique", un moteur de recherche de documents qui utilise des cellules photoélectriques et la reconnaissance de formes pour rechercher les métadonnées sur des rouleaux de documents microfilmés.
  • Années 1940-1950
    fin des années 1940 : L'armée américaine est confrontée à des problèmes d'indexation et de récupération de documents de recherche scientifique en temps de guerre capturés aux Allemands.
    1945 : As We May Think de Vannevar Bush paraît dans Atlantic Monthly .
    1947 : Hans Peter Luhn (ingénieur de recherche chez IBM depuis 1941) commence à travailler sur un système mécanisé basé sur des cartes perforées pour la recherche de composés chimiques.
    Années 1950 : La préoccupation croissante aux États-Unis pour un « écart scientifique » avec l'URSS a motivé, encouragé le financement et fourni une toile de fond pour les systèmes de recherche documentaire mécanisés ( Allen Kent et al. ) et l'invention de l' index de citations par Eugene Garfield .
    1950 : Le terme "recherche d'informations" est inventé par Calvin Mooers . [9]
    1951 : Philip Bagley a mené la première expérience de recherche documentaire informatisée dans une thèse de maîtrise au MIT . [dix]
    1955 : Allen Kent rejoint la Case Western Reserve University et devient par la suite directeur associé du Center for Documentation and Communications Research. Cette même année, Kent et ses collègues ont publié un article dans American Documentation décrivant les mesures de précision et de rappel ainsi que détaillant un "cadre" proposé pour évaluer un système IR qui comprenait des méthodes d'échantillonnage statistique pour déterminer le nombre de documents pertinents non récupérés. [11]
    1958 : La conférence internationale sur l'information scientifique de Washington DC inclut l'examen des systèmes IR comme solution aux problèmes identifiés. Voir: Actes de la Conférence internationale sur l'information scientifique, 1958 (National Academy of Sciences, Washington, DC, 1959)
    1959 : Hans Peter Luhn publie "Auto-encoding of documents for information retrieval".
  • années 1960 :
    début des années 1960 : Gerard Salton a commencé à travailler sur IR à Harvard, puis a déménagé à Cornell.
    1960 : Melvin Earl Maron et John Lary Kuhns [12] publient "On relevant, probabilistic indexing, and information retrieval" dans le Journal of the ACM 7(3):216–244, juillet 1960.
    1962 :
    • Cyril W. Cleverdon a publié les premiers résultats des études de Cranfield, développant un modèle d'évaluation du système IR. Voir : Cyril W. Cleverdon, "Rapport sur les tests et l'analyse d'une enquête sur l'efficacité comparative des systèmes d'indexation". Cranfield Collection of Aeronautics, Cranfield, Angleterre, 1962.
    • Kent a publié Information Analysis and Retrieval .
    1963 :
    • Le rapport Weinberg "Science, gouvernement et information" a donné une articulation complète de l'idée d'une "crise de l'information scientifique". Le rapport porte le nom du Dr Alvin Weinberg .
    • Joseph Becker et Robert M. Hayes ont publié un texte sur la recherche d'informations. Becker, Joseph; Hayes, Robert Mayo. Stockage et récupération d'informations : outils, éléments, théories . New York, Wiley (1963).
    1964 :
    • Karen Spärck Jones a terminé sa thèse à Cambridge, Synonymy and Semantic Classification , et a poursuivi ses travaux sur la linguistique informatique telle qu'elle s'applique à l'IR.
    • Le Bureau national des normes a parrainé un symposium intitulé "Méthodes de l'association statistique pour la documentation mécanisée". Plusieurs articles très importants, y compris la première référence publiée de G. Salton (nous pensons) au système SMART .
    milieu des années 1960 :
    • La Bibliothèque nationale de médecine a développé le système d'analyse et de récupération de la littérature médicale MEDLARS , la première grande base de données lisible par machine et le premier système de récupération par lots.
    • Projet Intrex au MIT.
    1965 : JCR Licklider publie Bibliothèques du futur .
    1966 : Don Swanson participe à des études à l'Université de Chicago sur les Exigences pour les futurs catalogues.
    fin des années 1960 : F. Wilfrid Lancaster termine des études d'évaluation du système MEDLARS et publie la première édition de son texte sur la recherche d'information.
    1968 :
    • Gerard Salton a publié Automatic Information Organization and Retrieval .
    • Le rapport RADC Tech de John W. Sammon, Jr. "Some Mathematics of Information Storage and Retrieval ..." a décrit le modèle vectoriel.
    1969 : " A nonlinear mapping for data structure analysis " (IEEE Transactions on Computers) de Sammon est la première proposition d'interface de visualisation pour un système IR.
  • années 1970
    début des années 1970 :
    • Premiers systèmes en ligne—AIM-TWX de NLM, MEDLINE ; Dialogue de Lockheed ; L'ORBITE de la SDC.
    • Theodor Nelson promouvant le concept d' hypertexte , a publié Computer Lib/Dream Machines .
    1971 : Nicholas Jardine et Cornelis J. van Rijsbergen publient "L'utilisation du clustering hiérarchique dans la recherche d'informations", qui articule "l'hypothèse du cluster". [13]
    1975 : Trois publications très influentes de Salton articulent pleinement son cadre de traitement vectoriel et son modèle de discrimination des termes :
    • Une théorie de l'indexation (Society for Industrial and Applied Mathematics)
    • Une théorie de l'importance des termes dans l'analyse automatique de texte ( JASIS v. 26)
    • Un modèle d'espace vectoriel pour l'indexation automatique ( CACM 18:11)
    1978 : Première conférence ACM SIGIR .
    1979 : CJ van Rijsbergen publie Information Retrieval (Butterworths). Accent mis sur les modèles probabilistes.
    1979 : Tamas Doszkocs implémente l' interface utilisateur en langage naturel CITE pour MEDLINE à la National Library of Medicine. Le système CITE a pris en charge la saisie de requêtes sous forme libre, la sortie classée et les commentaires sur la pertinence. [14]
  • années 1980
    1980 : Première conférence internationale ACM SIGIR, conjointe avec le groupe IR de la British Computer Society à Cambridge.
    1982 : Nicholas J. Belkin , Robert N. Oddy et Helen M. Brooks proposent le point de vue ASK (état anormal des connaissances) pour la recherche d'informations. C'était un concept important, même si leur outil d'analyse automatisé s'est finalement avéré décevant.
    1983 : Salton (et Michael J. McGill) publie Introduction to Modern Information Retrieval (McGraw-Hill), avec un accent particulier sur les modèles vectoriels.
    1985 : David Blair et Bill Maron publient : An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System
    milieu des années 1980 : Efforts pour développer des versions utilisateur final des systèmes IR commerciaux.
    1985–1993 : Articles clés et systèmes expérimentaux d'interfaces de visualisation.
    Travail de Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri et autres.
    1989 : Premières propositions du World Wide Web par Tim Berners-Lee au CERN .
  • années 1990
    1992 : Première conférence TREC .
    1997 : Publication de Korfhage 's Information Storage and Retrieval [15] avec un accent sur la visualisation et les systèmes de points de référence multiples.
    1999 : Publication de Ricardo Baeza-Yates et Berthier Ribeiro-Neto's Modern Information Retrieval by Addison Wesley, le premier livre qui tente de couvrir toutes les RI.
    fin des années 1990 : implémentation par les moteurs de recherche Web de nombreuses fonctionnalités que l'on ne trouvait auparavant que dans les systèmes infrarouges expérimentaux. Les moteurs de recherche deviennent l'instanciation la plus courante et peut-être la meilleure des modèles IR.

Grandes conférences

Récompenses dans le domaine

Voir aussi

Références

  1. ^ Jansen, BJ et Rieh, S. (2010) Les dix-sept constructions théoriques de la recherche d'informations et de la récupération d'informations Archivé le 04/03/2016 à la Wayback Machine . Journal de la Société américaine des sciences et technologies de l'information. 61(8), 1517-1534.
  2. ^ Goodrum, Abby A. (2000). "Récupération d'informations d'image: un aperçu de la recherche actuelle". Informer les sciences . 3 (2).
  3. ^ Foote, Jonathan (1999). "Un aperçu de la récupération d'informations audio". Systèmes multimédia . 7 : 2–10. CiteSeerX 10.1.1.39.6339 . doi : 10.1007/s005300050106 . S2CID 2000641 .  
  4. ^ Beel, Joran; Gipp, Bela; Stiller, Jan-Olaf (2009). Récupération d'informations sur les cartes mentales - À quoi cela pourrait-il servir ? . Actes de la 5e Conférence internationale sur l'informatique collaborative : mise en réseau, applications et partage de travail (CollaborateCom'09). Washington, DC : IEEE. Archivé de l'original le 13/05/2011 . Récupéré le 13/03/2012 .
  5. ^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Structures de données et algorithmes de recherche d'informations . Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archivé de l'original le 2013-09-28.
  6. ^ un b Singhal, Amit (2001). "Recherche d'informations moderne: un bref aperçu" (PDF) . Bulletin du comité technique de l'IEEE Computer Society sur l'ingénierie des données . 24 (4): 35–43.
  7. ^ Mark Sanderson et W. Bruce Croft (2012). "L'histoire de la recherche sur la recherche d'informations" . Actes de l'IEEE . 100 : 1444–1451. doi : 10.1109/jproc.2012.2189916 .
  8. ^ JE Holmström (1948). ""Section III. Session plénière d'ouverture" . Conférence d'information scientifique de la Royal Society, 21 juin-2 juillet 1948 : Rapport et documents soumis : 85.
  9. ^ Mooers, Calvin N.; The Theory of Digital Handling of Non-numerical Information and its Implications to Machine Economics (Zator Technical Bulletin No. 48), cité dans Fairthorne, RA (1958). "Récupération automatique des informations enregistrées" . La revue informatique . 1 (1): 37. doi : 10.1093/comjnl/1.1.36 .
  10. ^ Doyle, Lauren; Becker, Joseph (1975). Recherche et traitement de l'information . Melville. p. 410 p. ISBN 978-0-471-22151-7.
  11. ^ Perry, James W.; Kent, Allen; Berry, Madeline M. (1955). "Recherche de littérature machine X. Langage machine; facteurs sous-jacents à sa conception et à son développement". Documents américains . 6 (4): 242–254. doi : 10.1002/asi.5090060411 .
  12. ^ Maron, Melvin E. (2008). "Une note historique sur les origines de l'indexation probabiliste" (PDF) . Traitement et gestion de l'information . 44 (2): 971–972. doi : 10.1016/j.ipm.2007.02.012 .
  13. ^ N. Jardine, CJ van Rijsbergen (décembre 1971). "L'utilisation du clustering hiérarchique dans la recherche d'informations". Stockage et récupération d'informations . 7 (5): 217-240. doi : 10.1016/0020-0271(71)90051-9 .
  14. ^ Doszkocs, TE & Rapp, BA (1979). "Recherche dans MEDLINE en anglais : une interface utilisateur prototype avec une requête en langage naturel, une sortie classée et des commentaires sur la pertinence", dans : Actes de la réunion annuelle de l'ASIS, 16 : 131-139.
  15. ^ Korfhage, Robert R. (1997). Stockage et récupération d'informations . Wiley. p.  368 p . ISBN 978-0-471-14338-3.

Lectures complémentaires

Liens externes