Moteur de recherche

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche
Les résultats d'une recherche du terme "éclipse lunaire" dans un moteur de recherche d'images basé sur le Web

Un moteur de recherche est un système logiciel conçu pour effectuer des recherches sur le Web . Ils recherchent sur le World Wide Web de manière systématique des informations particulières spécifiées dans une requête de recherche textuelle sur le Web . Les résultats de la recherche sont généralement présentés dans une ligne de résultats, souvent appelés pages de résultats des moteurs de recherche (SERP). Les informations peuvent être un mélange de liens vers des pages Web , des images, des vidéos, des infographies , des articles, des documents de recherche et d'autres types de des dossiers. Certains moteurs de recherche exploitent également des données disponibles dans des bases de données ou des répertoires ouverts. contrairement àannuaires Web , qui ne sont gérés que par des éditeurs humains, les moteurs de recherche conservent également des informations en temps réel en exécutant un algorithme sur un robot d'indexation Web . Le contenu Internet qui ne peut pas être recherché par un moteur de recherche Web est généralement décrit comme le Web profond .

Historique

Chronologie ( liste complète )
An Moteur Statut actuel
1993 W3Catalog actif
Aliweb actif
JumpStation Inactif
Ver WWW Inactif
1994 WebCrawler actif
Go.com Inactif, redirige vers Disney
Lycos actif
Recherche d'informations Inactif, redirige vers Disney
1995 Yahoo! Rechercher Active, initialement une fonction de recherche pour Yahoo! Annuaire
Daum actif
Magellan Inactif
Exciter actif
SAPO actif
MetaCrawler actif
Alta Vista Inactif, acquis par Yahoo! en 2003, depuis 2013 redirige vers Yahoo!
1996 RankDex Inactif, intégré à Baidu en 2000
Dogpile Actif, Agrégateur
Inktom Inactif, acquis par Yahoo!
HotBot actif
Demandez à Jeeves Actif (rebaptisé ask.com)
1997 AOL NetFind Actif (rebaptisé AOL Search depuis 1999)
Aurore boréale Inactif
Yandex actif
1998 Google actif
Ixquick Actif en tant que Startpage.com
Recherche MSN Actif en tant que Bing
empas Inactif (fusionné avec NATE)
1999 ToutleWeb Inactif (URL redirigé vers Yahoo!)
GenieKnows Yellowee actif et rebaptisé (redirection vers justlocalbusiness.com)
Naver actif
Téoma Actif (© APN, LLC)
2000 Baidu actif
Exalead Inactif
Gigablast actif
2001 Kartoo Inactif
2003 Info.com actif
2004 A9.com Inactif
croustillant Actif (comme Yippy)
Mojeek actif
Sogou actif
2005 Cherche moi Inactif
KidzRecherche Actif, Recherche Google
2006 Comme ci comme ça Inactif, fusionné avec Sogou
Quaéro Inactif
Recherche.com actif
ChaCha Inactif
Demandez.com actif
Recherche en direct Actif sous le nom de Bing, rebaptisé MSN Search
2007 wikiseek Inactif
Sproose Inactif
Recherche Wikia Inactif
Blackle.com Actif, Recherche Google
2008 Powerset Inactif (redirige vers Bing)
Picollateur Inactif
Viewzi Inactif
Boogami Inactif
SautPoisson Inactif
Forestle Inactif (redirige vers Ecosia)
CanardCanardAller actif
2009 Bing Recherche en direct active et renommée
Yebol Inactif
Mugurdie Inactif par manque de financement
Scout (Gobie) actif
NAT actif
Écosia actif
Startpage.com Actif, moteur jumeau d'Ixquick
2010 Blekko Inactif, vendu à IBM
Cuil Inactif
Yandex (anglais) actif
Parsijoo actif
2011 YaCy Actif, P2P
2012 Volunia Inactif
2013 Qwant actif
2014 Égerin Actif, Kurde / Sorani
vaches suisses actif
Rechercher actif
2015 Yoz actif
Cliqz Inactif
2016 Kiddle Actif, Recherche Google
2020 Pétale actif

Avant les années 1990

Un système de localisation des informations publiées destiné à surmonter la difficulté toujours croissante de localiser des informations dans des index centralisés de plus en plus importants de travaux scientifiques a été décrit en 1945 par Vannevar Bush , qui a écrit un article dans The Atlantic Monthly intitulé " As We May Think " [1 ] dans lequel il envisageait des bibliothèques de recherche avec des annotations connectées ressemblant aux hyperliens modernes . [2] L'analyse des liens deviendrait éventuellement un élément crucial des moteurs de recherche grâce à des algorithmes tels que Hyper Search et PageRank . [3] [4]

Années 1990 : Naissance des moteurs de recherche

Les premiers moteurs de recherche Internet sont antérieurs aux débuts du Web en décembre 1990 : la recherche d'utilisateurs WHOIS remonte à 1982, [5] et la recherche d'utilisateurs multi-réseaux du service d'information Knowbot a été mise en œuvre pour la première fois en 1989. [6] La première recherche bien documentée Le moteur qui recherchait les fichiers de contenu, à savoir les fichiers FTP , était Archie , qui a fait ses débuts le 10 septembre 1990. [7]

Avant septembre 1993, le World Wide Web était entièrement indexé à la main. Il y avait une liste de serveurs Web éditée par Tim Berners-Lee et hébergée sur le serveur Web du CERN . Un instantané de la liste en 1992 reste, [8] mais comme de plus en plus de serveurs Web se sont mis en ligne, la liste centrale ne pouvait plus suivre. Sur le site NCSA , de nouveaux serveurs ont été annoncés sous le titre "What's New!" [9]

Le premier outil utilisé pour rechercher du contenu (par opposition aux utilisateurs) sur Internet était Archie . [10] Le nom signifie "archive" sans le "v"., [11] Il a été créé par Alan Emtage [11] [12] [13] [14] étudiant en informatique à l'Université McGill à Montréal, Québec , Canada . Le programme a téléchargé les listes de répertoires de tous les fichiers situés sur des sites FTP anonymes publics ( protocole de transfert de fichiers ), créant une base de données consultable de noms de fichiers ; cependant, Archie Search Enginen'a pas indexé le contenu de ces sites car la quantité de données était si limitée qu'elle pouvait être facilement recherchée manuellement.

L'essor de Gopher (créé en 1991 par Mark McCahill à l' Université du Minnesota ) a conduit à deux nouveaux programmes de recherche, Veronica et Jughead . Comme Archie, ils ont recherché les noms de fichiers et les titres stockés dans les systèmes d'index Gopher. Veronica ( V ery E asy R odent- O riented Net -wide Index to C omputerized A rchives ) a fourni une recherche par mot - clé de la plupart des titres de menu Gopher dans l'ensemble des listes Gopher. Jughead ( J onzy 's Universal G opherH ierarchy E xcavation And Display ) était un outil permettant d'obtenir des informations de menu à partir de serveurs Gopher spécifiques. Alors que le nom du moteur de recherche « Archie Search Engine » n'était pas une référence à la série de bandes dessinées Archie , « Veronica » et « Jughead » sont des personnages de la série, faisant ainsi référence à leur prédécesseur.

À l'été 1993, aucun moteur de recherche n'existait pour le Web, même si de nombreux catalogues spécialisés étaient maintenus à la main. Oscar Nierstrasz de l' Université de Genève a écrit une série de scripts Perl qui reflétaient périodiquement ces pages et les réécrivaient dans un format standard. Cela a formé la base de W3Catalog , le premier moteur de recherche primitif du Web, sorti le 2 septembre 1993. [15]

En juin 1993, Matthew Gray, alors au MIT , a produit ce qui était probablement le premier robot Web , le World Wide Web Wanderer basé sur Perl , et l'a utilisé pour générer un index appelé "Wandex". Le but du Wanderer était de mesurer la taille du World Wide Web, ce qu'il a fait jusqu'à la fin de 1995. Le deuxième moteur de recherche du Web, Aliweb , est apparu en novembre 1993. Aliweb n'utilisait pas de robot Web , mais dépendait plutôt d'être notifié par le site Web. administrateurs de l'existence sur chaque site d'un fichier d'index dans un format particulier.

JumpStation (créé en décembre 1993 [16] par Jonathon Fletcher ) utilisait un robot Web pour trouver des pages Web et construire son index, et utilisait un formulaire Web comme interface avec son programme de requête. C'était donc le premier outil de découverte de ressources WWW à combiner les trois caractéristiques essentielles d'un moteur de recherche Web (exploration, indexation et recherche) décrites ci-dessous. En raison des ressources limitées disponibles sur la plate-forme sur laquelle il s'exécutait, son indexation et donc sa recherche étaient limitées aux titres et en-têtes trouvés dans les pages Web rencontrées par le crawler.

L'un des premiers moteurs de recherche basés sur des robots "tout texte" était WebCrawler , qui est sorti en 1994. Contrairement à ses prédécesseurs, il permettait aux utilisateurs de rechercher n'importe quel mot dans n'importe quelle page Web, ce qui est devenu la norme pour tous les principaux moteurs de recherche depuis. C'était aussi le moteur de recherche le plus connu du public. Toujours en 1994, Lycos (qui a commencé à l'Université Carnegie Mellon ) a été lancé et est devenu une entreprise commerciale majeure.

Le premier moteur de recherche populaire sur le Web était Yahoo! Recherche . [17] Le premier produit de Yahoo! , fondé par Jerry Yang et David Filo en janvier 1994, était un annuaire Web appelé Yahoo! Annuaire . En 1995, une fonction de recherche a été ajoutée, permettant aux utilisateurs de rechercher Yahoo! Annuaire! [18] [19] C'est devenu l'un des moyens les plus populaires pour les gens de trouver des pages Web intéressantes, mais sa fonction de recherche fonctionnait sur son répertoire Web, plutôt que sur ses copies en texte intégral des pages Web.

Peu de temps après, un certain nombre de moteurs de recherche sont apparus et se sont disputés la popularité. Ceux-ci comprenaient Magellan , Excite , Infoseek , Inktomi , Northern Light et AltaVista . Les personnes à la recherche d'informations pourraient également parcourir le répertoire au lieu d'effectuer une recherche par mots clés.

En 1996, Robin Li a développé l' algorithme de notation de site RankDex pour le classement des pages de résultats des moteurs de recherche [20] [21] [22] et a reçu un brevet américain pour la technologie. [23] C'était le premier moteur de recherche qui utilisait des hyperliens pour mesurer la qualité des sites Web qu'il indexait, [24] avant le brevet d'algorithme très similaire déposé par Google deux ans plus tard en 1998. [25] Larry Page a fait référence au travail de Li dans certains de ses brevets américains pour le PageRank. [26] Li a ensuite utilisé sa technologie Rankdex pour le Baidu moteur de recherche, qui a été fondé par Robin Li en Chine et lancé en 2000.

En 1996, Netscape cherchait à donner à un seul moteur de recherche un accord exclusif en tant que moteur de recherche en vedette sur le navigateur Web de Netscape. Il y avait tellement d'intérêt que Netscape a plutôt conclu des accords avec cinq des principaux moteurs de recherche : pour 5 millions de dollars par an, chaque moteur de recherche serait en rotation sur la page du moteur de recherche Netscape. Les cinq moteurs étaient Yahoo!, Magellan, Lycos, Infoseek et Excite. [27] [28]

Google a adopté l'idée de vendre des termes de recherche en 1998, d'une petite société de moteurs de recherche nommée goto.com . Cette décision a eu un effet significatif sur l'activité des moteurs de recherche, qui est passée de la difficulté à l'une des entreprises les plus rentables d'Internet. [29]

Les moteurs de recherche étaient également connus comme l'une des étoiles les plus brillantes de la frénésie d'investissement sur Internet qui s'est produite à la fin des années 1990. [30] Plusieurs sociétés sont entrées sur le marché de manière spectaculaire, réalisant des gains records lors de leurs introductions en bourse . Certains ont supprimé leur moteur de recherche public et commercialisent des éditions réservées aux entreprises, telles que Northern Light. De nombreuses sociétés de moteurs de recherche ont été prises dans la bulle Internet , un boom du marché alimenté par la spéculation qui a culminé en 1990 et s'est terminé en 2000.

Années 2000 à aujourd'hui : après la bulle Internet

Vers 2000, le moteur de recherche de Google a pris de l'importance. [31] La société a obtenu de meilleurs résultats pour de nombreuses recherches avec un algorithme appelé PageRank , comme cela a été expliqué dans l'article Anatomie d'un moteur de recherche écrit par Sergey Brin et Larry Page , les derniers fondateurs de Google. [4] Cet algorithme itératif classe les pages Web en fonction du nombre et du PageRank d'autres sites Web et des pages qui y sont liées, en partant du principe que les pages bonnes ou souhaitables sont liées à plus que d'autres. Le brevet de PageRank de Larry Page cite le précédent brevet RankDex de Robin Li comme une influence. [26]Google a également maintenu une interface minimaliste avec son moteur de recherche. En revanche, nombre de ses concurrents ont intégré un moteur de recherche dans un portail Web . En fait, le moteur de recherche Google est devenu si populaire que des moteurs frauduleux sont apparus tels que Mystery Seeker .

En 2000, Yahoo! fournissait des services de recherche basés sur le moteur de recherche d'Inktomi. Yahoo! a acquis Inktomi en 2002 et Overture (qui possédait AlltheWeb et AltaVista) en 2003. Yahoo! est passé au moteur de recherche de Google jusqu'en 2004, date à laquelle il a lancé son propre moteur de recherche basé sur les technologies combinées de ses acquisitions.

Microsoft a lancé MSN Search pour la première fois à l'automne 1998 en utilisant les résultats de recherche d'Inktomi. Au début de 1999, le site a commencé à afficher des listes de Looksmart , mélangées avec des résultats d'Inktomi. Pendant une courte période en 1999, MSN Search a utilisé les résultats d'AltaVista à la place. En 2004, Microsoft a entamé une transition vers sa propre technologie de recherche, alimentée par son propre robot d'indexation (appelé msnbot ).

Le moteur de recherche renommé de Microsoft, Bing , a été lancé le 1er juin 2009. Le 29 juillet 2009, Yahoo! et Microsoft ont finalisé un accord dans lequel Yahoo! La recherche serait alimentée par la technologie Microsoft Bing.

Depuis 2019, les robots d'exploration actifs des moteurs de recherche incluent ceux de Google , Petal , Sogou , Baidu , Bing , Gigablast , Mojeek , DuckDuckGo et Yandex .

Approche

Un moteur de recherche maintient les processus suivants en temps quasi réel :

  1. Exploration Web
  2. Indexage
  3. Recherche [32]

Les moteurs de recherche Web obtiennent leurs informations en explorant le Web de site en site. Le "spider" recherche le nom de fichier standard robots.txt , qui lui est adressé. Le fichier robots.txt contient des directives pour les robots de recherche, lui indiquant quelles pages explorer et quelles pages ne pas explorer. Après avoir recherché robots.txt et l'avoir trouvé ou non, l'araignée renvoie certaines informations à indexer en fonction de nombreux facteurs, tels que les titres, le contenu de la page, JavaScript , les feuilles de style en cascade (CSS), les en-têtes ou ses métadonnées dans Balises méta HTML. Après un certain nombre de pages explorées, de quantité de données indexées ou de temps passé sur le site Web, l'araignée arrête d'explorer et passe à autre chose. "[A]ucun robot d'exploration Web ne peut explorer l'intégralité du Web accessible. En raison des sites Web infinis, des pièges à araignées, du spam et d'autres exigences du Web réel, les robots d'exploration appliquent à la place une politique d'exploration pour déterminer quand l'exploration d'un site doit être considérée Certains sites Web sont explorés de manière exhaustive, tandis que d'autres ne le sont que partiellement". [33]

L'indexation consiste à associer des mots et d'autres jetons définissables trouvés sur des pages Web à leurs noms de domaine et à leurs champs HTML . Les associations sont faites dans une base de données publique, mise à disposition pour les requêtes de recherche sur le Web. Une requête d'un utilisateur peut être un seul mot, plusieurs mots ou une phrase. L'index permet de retrouver le plus rapidement possible les informations relatives à la requête. [32] Certaines des techniques d'indexation et de mise en cache sont des secrets commerciaux, tandis que l'exploration du Web est un processus simple consistant à visiter tous les sites de manière systématique.

Entre les visites de l' araignée , la version en cache de la page (tout ou partie du contenu nécessaire pour la rendre) stockée dans la mémoire de travail du moteur de recherche est rapidement envoyée à un demandeur. Si une visite est en retard, le moteur de recherche peut simplement agir comme un proxy Web à la place. Dans ce cas, la page peut différer des termes de recherche indexés. [32] La page en cache conserve l'apparence de la version dont les mots ont été précédemment indexés, de sorte qu'une version en cache d'une page peut être utile au site Web lorsque la page réelle a été perdue, mais ce problème est également considéré comme une forme légère de linkrot .

Architecture de haut niveau d'un robot d'indexation Web standard

Généralement, lorsqu'un utilisateur saisit une requête dans un moteur de recherche, il s'agit de quelques mots- clés . [34] L' index contient déjà les noms des sites contenant les mots clés, et ceux-ci sont instantanément obtenus à partir de l'index. La véritable charge de traitement consiste à générer les pages Web qui constituent la liste des résultats de recherche : chaque page de la liste complète doit être pondérée en fonction des informations contenues dans les index. [32] Ensuite, l'élément de résultat de recherche supérieur nécessite la recherche, la reconstruction et le balisage des extraitsmontrant le contexte des mots-clés correspondants. Ce ne sont qu'une partie du traitement requis par chaque page Web de résultats de recherche, et les pages suivantes (à côté du haut) nécessitent davantage de ce post-traitement.

Au-delà des simples recherches de mots-clés, les moteurs de recherche offrent leurs propres opérateurs et paramètres de recherche basés sur l'interface graphique ou les commandes pour affiner les résultats de la recherche. Ceux-ci fournissent les contrôles nécessaires pour l'utilisateur engagé dans la boucle de rétroaction que les utilisateurs créent en filtrant et en pondérant tout en affinant les résultats de la recherche, compte tenu des pages initiales des premiers résultats de recherche. Par exemple, depuis 2007, le moteur de recherche Google.com permet de filtrer par date en cliquant sur "Afficher les outils de recherche" dans la colonne la plus à gauche de la page de résultats de recherche initiale, puis en sélectionnant la plage de dates souhaitée. [35] Il est également possible de pondérer par date car chaque page a une heure de modification. La plupart des moteurs de recherche prennent en charge l'utilisation deopérateurs booléens AND, OR et NOT pour aider les utilisateurs finaux à affiner la requête de recherche . Les opérateurs booléens sont destinés aux recherches littérales qui permettent à l'utilisateur d'affiner et d'étendre les termes de la recherche. Le moteur recherche les mots ou les phrases exactement tels qu'ils ont été saisis. Certains moteurs de recherche fournissent une fonctionnalité avancée appelée recherche de proximité , qui permet aux utilisateurs de définir la distance entre les mots-clés. [32] Il existe également une recherche basée sur des concepts où la recherche implique l'utilisation d'une analyse statistique sur des pages contenant les mots ou les phrases que vous recherchez.

L'utilité d'un moteur de recherche dépend de la pertinence du jeu de résultats qu'il renvoie. Bien qu'il puisse y avoir des millions de pages Web qui incluent un mot ou une expression particulière, certaines pages peuvent être plus pertinentes, populaires ou faisant autorité que d'autres. La plupart des moteurs de recherche utilisent des méthodes pour classer les résultats afin de fournir les « meilleurs » résultats en premier. La façon dont un moteur de recherche décide quelles pages sont les meilleures correspondances et dans quel ordre les résultats doivent être affichés varie considérablement d'un moteur à l'autre. [32]Les méthodes changent également au fil du temps à mesure que l'utilisation d'Internet change et que de nouvelles techniques évoluent. Il existe deux principaux types de moteurs de recherche qui ont évolué : l'un est un système de mots-clés prédéfinis et hiérarchisés que les humains ont largement programmés. L'autre est un système qui génère un « index inversé » en analysant les textes qu'il localise. Cette première forme repose beaucoup plus sur l'ordinateur lui-même pour faire le gros du travail.

La plupart des moteurs de recherche Web sont des entreprises commerciales soutenues par des revenus publicitaires et certains d'entre eux permettent donc aux annonceurs d' avoir leurs annonces mieux classées dans les résultats de recherche moyennant des frais. Les moteurs de recherche qui n'acceptent pas d'argent pour leurs résultats de recherche gagnent de l'argent en diffusant des annonces liées à la recherche parallèlement aux résultats réguliers des moteurs de recherche. Les moteurs de recherche gagnent de l'argent chaque fois que quelqu'un clique sur l'une de ces publicités. [36]

Recherche locale

La recherche locale est le processus qui optimise les efforts des entreprises locales. Ils se concentrent sur le changement pour s'assurer que toutes les recherches sont cohérentes. C'est important parce que de nombreuses personnes déterminent où elles prévoient d'aller et quoi acheter en fonction de leurs recherches. [37]

Part de marché

En janvier 2022 , Google était de loin le moteur de recherche le plus utilisé au monde, avec une part de marché de 92,01 %, et les autres moteurs de recherche les plus utilisés au monde étaient Bing , Yahoo! , Baidu , Yandex et DuckDuckGo . [38]

Russie et Asie de l'Est

En Russie, Yandex détient une part de marché de 61,9 %, contre 28,3 % pour Google. [39] En Chine, Baidu est le moteur de recherche le plus populaire. [40] Le portail de recherche sud-coréen, Naver , est utilisé pour 70 % des recherches en ligne dans le pays. [41] Yahoo! Japon et Yahoo! Taïwan sont les avenues les plus populaires pour les recherches sur Internet au Japon et à Taïwan, respectivement. [42] La Chine est l'un des rares pays où Google ne figure pas parmi les trois premiers moteurs de recherche Web en termes de part de marché. Google était auparavant l'un des principaux moteurs de recherche en Chine, mais s'est retiré après un désaccord avec le gouvernement sur la censure et une cyberattaque. [43]

Europe

La plupart des marchés des pays de l'Union européenne sont dominés par Google, à l'exception de la République tchèque , où Seznam est un concurrent sérieux. [44]

Le moteur de recherche Qwant est basé à Paris , en France , d'où il attire la plupart de ses 50 millions d'utilisateurs enregistrés par mois.

Biais des moteurs de recherche

Bien que les moteurs de recherche soient programmés pour classer les sites Web en fonction d'une combinaison de leur popularité et de leur pertinence, des études empiriques indiquent divers biais politiques, économiques et sociaux dans les informations qu'ils fournissent [45] [46] et les hypothèses sous-jacentes sur la technologie. [47] Ces biais peuvent être le résultat direct de processus économiques et commerciaux (par exemple, les entreprises qui font de la publicité avec un moteur de recherche peuvent également devenir plus populaires dans leurs résultats de recherche organiques ) et de processus politiques (par exemple, la suppression de résultats de recherche pour se conformer avec les lois locales). [48] ​​Par exemple, Google ne fera pas apparaître certains sites Web néonazis en France et en Allemagne, où la négation de l'Holocausteest illégal.

Les biais peuvent également être le résultat de processus sociaux, car les algorithmes des moteurs de recherche sont souvent conçus pour exclure les points de vue non normatifs en faveur de résultats plus « populaires ». [49] Les algorithmes d'indexation des principaux moteurs de recherche privilégient la couverture des sites basés aux États-Unis, plutôt que des sites Web de pays autres que les États-Unis. [46]

Google Bombing est un exemple de tentative de manipulation des résultats de recherche pour des raisons politiques, sociales ou commerciales.

Plusieurs chercheurs ont étudié les changements culturels déclenchés par les moteurs de recherche, [50] et la représentation de certains sujets controversés dans leurs résultats, comme le terrorisme en Irlande , [51] le déni du changement climatique , [52] et les théories du complot . [53]

Résultats personnalisés et bulles de filtre

De nombreux moteurs de recherche tels que Google et Bing fournissent des résultats personnalisés basés sur l'historique des activités de l'utilisateur. Cela conduit à un effet qui a été appelé une bulle de filtre . Le terme décrit un phénomène dans lequel les sites Web utilisent des algorithmes pour deviner de manière sélective quelles informations un utilisateur souhaite voir, sur la base d'informations sur l'utilisateur (telles que l'emplacement, le comportement des clics passés et l'historique des recherches). Par conséquent, les sites Web ont tendance à n'afficher que des informations qui correspondent au point de vue antérieur de l'utilisateur. Cela place l'utilisateur dans un état d'isolement intellectuel sans information contraire. Les meilleurs exemples sont les résultats de recherche personnalisés de Google et le flux d'actualités personnalisé de Facebook . Selon Eli Pariser, qui a inventé le terme, les utilisateurs sont moins exposés à des points de vue contradictoires et sont isolés intellectuellement dans leur propre bulle d'information. Pariser a cité un exemple dans lequel un utilisateur a recherché "BP" sur Google et a obtenu des informations sur les investissements de British Petroleum tandis qu'un autre chercheur a obtenu des informations sur la marée noire de Deepwater Horizon et que les deux pages de résultats de recherche étaient "étonnamment différentes". [54] [55] [56] L'effet de bulle peut avoir des implications négatives pour le discours civique, selon Pariser. [57] Depuis que ce problème a été identifié, des moteurs de recherche concurrents sont apparus qui cherchent à éviter ce problème en ne suivant pas ou en "bouillonnant" les utilisateurs, tels que DuckDuckGo. D'autres chercheurs ne partagent pas le point de vue de Pariser, trouvant les preuves à l'appui de sa thèse peu convaincantes. [58]

Moteurs de recherche religieux

La croissance mondiale d'Internet et des médias électroniques dans le monde arabe et musulman au cours de la dernière décennie a encouragé les adeptes de l'islam au Moyen-Orient et dans le sous-continent asiatique à essayer leurs propres moteurs de recherche, leurs propres portails de recherche filtrés qui permettraient aux utilisateurs de effectuer des recherches en toute sécurité . Plus que les filtres de recherche sécurisés habituels , ces portails Web islamiques classent les sites Web en catégories « halal » ou « haram », sur la base de l'interprétation de la « loi de l'islam » . ImHalal a été mis en ligne en septembre 2011. Halalgooglingmis en ligne en juillet 2013. Ceux-ci utilisent des filtres haram sur les collections de Google et Bing (et autres). [59]

Alors que le manque d'investissements et la lenteur des technologies dans le monde musulman ont entravé les progrès et contrecarré le succès d'un moteur de recherche islamique, ciblant comme principaux consommateurs les adeptes islamiques, des projets comme Muxlim , un site de mode de vie musulman, ont reçu des millions de dollars d'investisseurs comme Rite Internet Ventures, et il a également échoué. D'autres moteurs de recherche axés sur la religion sont Jewogle, la version juive de Google, [60] et SeekFind.org, qui est chrétien. SeekFind filtre les sites qui attaquent ou dégradent leur foi. [61]

Soumission aux moteurs de recherche

La soumission aux moteurs de recherche Web est un processus dans lequel un webmaster soumet un site Web directement à un moteur de recherche. Bien que la soumission aux moteurs de recherche soit parfois présentée comme un moyen de promouvoir un site Web, elle n'est généralement pas nécessaire car les principaux moteurs de recherche utilisent des robots d'indexation qui finiront par trouver la plupart des sites Web sur Internet sans aide. Ils peuvent soit soumettre une page Web à la fois, soit soumettre le site entier à l'aide d'un sitemap , mais il suffit normalement de soumettre la page d'accueild'un site Web car les moteurs de recherche sont capables d'explorer un site Web bien conçu. Il reste deux raisons de soumettre un site Web ou une page Web à un moteur de recherche : pour ajouter un site Web entièrement nouveau sans attendre qu'un moteur de recherche le découvre, et pour mettre à jour l'enregistrement d'un site Web après une refonte substantielle.

Certains logiciels de soumission aux moteurs de recherche soumettent non seulement des sites Web à plusieurs moteurs de recherche, mais ajoutent également des liens vers des sites Web à partir de leurs propres pages. Cela peut sembler utile pour améliorer le classement d'un site Web , car les liens externes sont l'un des facteurs les plus importants pour déterminer le classement d'un site Web. Cependant, John Mueller de Google a déclaré que cela "peut conduire à un nombre considérable de liens non naturels pour votre site" avec un impact négatif sur le classement du site. [62]

Voir aussi

Références

  1. ^ "Historique des moteurs de recherche.com" . www.searchenginehistory.com . Récupéré le 02/07/2020 .
  2. ^ "Connexion sécurisée Penn State WebAccess" . webaccess.psu.edu . Récupéré le 02/07/2020 .
  3. ^ Marchiori, Massimo (1997). "La quête d'informations correctes sur le Web : les moteurs de recherche hyper" . Actes de la sixième conférence internationale sur le Web (WWW6) . Récupéré le 10/01/2021 .
  4. ^ un b Brin, Sergey; Page, Larry (1998). "L'anatomie d'un moteur de recherche Web hypertextuel à grande échelle" (PDF) . Actes de la septième conférence internationale sur le Web (WWW7) . Récupéré le 10/01/2021 .
  5. ^ "RFC 812 - NICNAME/WHOIS" . ietf.org .
  6. ^ "Programmation Knowbot : prise en charge du système pour les agents mobiles" . cnri.reston.va.us .
  7. ^ Deutsch, Peter (11 septembre 1990). "[suivant] Un serveur de serveur d'archives Internet (était à propos de Lisp)" . groupes.google.com . Récupéré le 29/12/2017 .
  8. ^ "Serveurs Web mondiaux" . W3.org . Récupéré le 14/05/2012 .
  9. ^ "Quoi de neuf! Février 1994" . Accueil.mcom.com . Récupéré le 14/05/2012 .
  10. ^ "Histoire d'Internet - Moteurs de recherche" (de Search Engine Watch ), Universiteit Leiden, Pays-Bas, septembre 2001, web : LeidenU-Archie .
  11. ^ un pcmag b . "Archie" . pcmag.com . Récupéré le 20/09/2020 .
  12. ^ Alexandra Samuel. "Rencontrez Alan Emtage, le technologue noir qui a inventé ARCHIE, le premier moteur de recherche Internet" . ITHAQUE . Récupéré le 20/09/2020 .
  13. ^ Nouvelles en boucle de la Barbade. "Alan Emtage - un Barbadien que vous devriez connaître" . loopnewsbarbados.com . Récupéré le 21/09/2020 .
  14. ^ Dino Grandoni, Alan Emtage. "Alan Emtage : l'homme qui a inventé le premier moteur de recherche au monde (mais qui ne l'a pas breveté)" . huffingtonpost .co.uk . Récupéré le 21/09/2020 .
  15. ^ Oscar Nierstrasz (2 septembre 1993). "Catalogue consultable des ressources WWW (expérimental)" .
  16. ^ "Archives de NCSA quoi de neuf dans la page de décembre 1993" . 2001-06-20. Archivé de l'original le 2001-06-20 . Récupéré le 14/05/2012 .
  17. ^ "Qu'est-ce que le premier moteur?" . RechercheCIO . TechTarget . Septembre 2005 . Récupéré le 5 septembre 2019 .
  18. ^ Oppitz, Marcus; Tomsu, Peter (2017). Inventer le siècle du cloud : comment le cloud ne cesse de changer notre vie, notre économie et notre technologie . Springer. p. 238. ISBN 9783319611617.
  19. ^ "Yahoo! Recherche" . Yahoo! . 28 novembre 1996. Archivé de l'original le 28 novembre 1996 . Récupéré le 5 septembre 2019 .
  20. ^ Greenberg, Andy, "L'homme qui bat Google" , magazine Forbes , 5 octobre 2009
  21. ^ Yanhong Li, "Vers un moteur de recherche qualitatif," IEEE Internet Computing , vol. 2, non. 4, pp. 24–29, juillet/août. 1998, doi : 10.1109/4236.707687
  22. ^ "À propos de: RankDex" , rankdex.com
  23. ^ USPTO, "Hypertext Document Retrieval System and Method" , Numéro de brevet américain : 5920859, Inventeur : Yanhong Li, Date de dépôt : 5 février 1997, Date de publication : 6 juillet 1999
  24. ^ "Baidu Vs Google : les jumeaux de la recherche comparés" . FourWeekMBA . 18 septembre 2018 . Récupéré le 16 juin 2019 .
  25. ^ Altucher, James (18 mars 2011). "10 choses inhabituelles sur Google" . Forbes . Récupéré le 16 juin 2019 .
  26. ^ un b "Méthode pour le classement de noeud dans une base de données liée" . Brevets Google. Archivé de l'original le 15 octobre 2015 . Récupéré le 19 octobre 2015 .
  27. ^ "Yahoo! Et Netscape Ink International Distribution Deal" (PDF) . Archivé de l'original (PDF) le 2013-11-16 . Récupéré le 12/08/2009 .
  28. ^ "Les offres de navigateur poussent le stock de Netscape jusqu'à 7,8%" . Los Angeles Times . 1er avril 1996.
  29. ^ Bourse, Bart. Moteurs de recherche . Pressbooks de l'État de Penn . Consulté le 20 février 2018 .
  30. ^ Gandal, Neil (2001). "La dynamique de la concurrence sur le marché des moteurs de recherche Internet" . Journal international de l'organisation industrielle . 19 (7): 1103–1117. doi : 10.1016/S0167-7187(01)00065-0 .
  31. ^ "Notre histoire en profondeur" . W3.org . Récupéré le 31/10/2012 .
  32. ^ un bcdef Jawadekar , Waman S (2011), "8. Gestion des connaissances : outils et technologie" , Gestion des connaissances : texte et cas , New Delhi : Tata McGraw-Hill Education Private Ltd, p. 278, ISBN 978-0-07-07-0086-4, récupéré le 23 novembre 2012
  33. ^ Dasgupta, Anirban; Gosh, Arpita ; Kumar, Ravi ; Olston, Christophe; Pandey, Sandeep ; et Tomkins, Andrew. La découvrabilité du Web . http://www.arpitaghosh.com/papers/discoverability.pdf
  34. ^ Jansen, BJ, Spink, A. et Saracevic, T. 2000. Vie réelle, utilisateurs réels et besoins réels : une étude et une analyse des requêtes des utilisateurs sur le Web. Traitement et gestion de l'information . 36(2), 207-227.
  35. ^ Chitu, Alex (30 août 2007). "Un moyen facile de trouver des pages Web récentes" . Système d'exploitation Google . Récupéré le 22 février 2015 .
  36. ^ "comment fonctionne le moteur de recherche?" . GFO = 26 juin 2018.
  37. ^ "Qu'est-ce que le référencement local et pourquoi la recherche locale est importante" . Journal des moteurs de recherche . Récupéré le 26/04/2020 .
  38. ^ "Part de marché des moteurs de recherche dans le monde" . StatCounter GlobalStats . Consulté le 1er mars 2022 .
  39. ^ "Internet en direct - Statistiques du site" . Internet en direct . Récupéré le 04/06/2014 .
  40. ^ Arthur, Charles (2014-06-03). "Les entreprises technologiques chinoises en passe de dominer le monde" . Le Gardien . Récupéré le 04/06/2014 .
  41. ^ "Comment Naver nuit à la productivité des entreprises" . Le Wall StreetJournal . 2014-05-21 . Récupéré le 04/06/2014 .
  42. ^ "L'âge des empires Internet" . Institut Internet d'Oxford . Récupéré le 15 août 2019 .
  43. ^ Waddell, Kaveh (2016-01-19). "Pourquoi Google a quitté la Chine et pourquoi il revient" . L'Atlantique . Récupéré le 26/04/2020 .
  44. ^ Seznam prend Google en République tchèque . Doz.
  45. ^ Segev, El (2010). Google et la fracture numérique : les biais de la connaissance en ligne , Oxford : Chandos Publishing.
  46. ^ un b Vaughan, Liwen; Mike Thelwall (2004). "Biais de couverture des moteurs de recherche : preuves et causes possibles". Traitement et gestion de l'information . 40 (4): 693–707. CiteSeerX 10.1.1.65.5130 . doi : 10.1016/S0306-4573(03)00063-3 . 
  47. ^ Jansen, BJ et Rieh, S. (2010) Les dix-sept constructions théoriques de la recherche d'informations et de la récupération d'informations . Journal de la Société américaine des sciences et technologies de l'information. 61(8), 1517-1534.
  48. ^ Berkman Center for Internet & Society (2002), "Remplacement de Google par des systèmes de recherche alternatifs en Chine : documentation et captures d'écran" , Harvard Law School.
  49. ^ Introna, Lucas; Helen Nissenbaum (2000). "Façonner le Web : pourquoi la politique des moteurs de recherche est importante". La société de l'information . 16 (3): 169–185. CiteSeerX 10.1.1.24.8051 . doi : 10.1080/01972240050133634 . S2CID 2111039 .  
  50. ^ Hillis, Ken; Petit, Michel ; Jarrett, Kylie (2012-10-12). Google et la culture de la recherche . Routledge. ISBN 9781136933066.
  51. ^ Reilly, P. (2008-01-01). Spink, Pr Dr Amanda ; Zimmer, Michael (éd.).« Googler » les terroristes : les terroristes nord-irlandais sont-ils visibles sur les moteurs de recherche Internet ? . Sciences de l'information et gestion des connaissances. Vol. 14. Springer Berlin Heidelberg. p. 151–175. Bibcode : 2008wsis.book..151R . doi : 10.1007/978-3-540-75829-7_10 . ISBN 978-3-540-75828-0. S2CID  84831583 .
  52. ^ Hiroko Tabuchi, « How Climate Change Deniers Rise to the Top in Google Searches », The New York Times, 29 décembre 2017. Récupéré le 14 novembre 2018.
  53. ^ Ballatore, A (2015). "Google chemtrails : une méthodologie pour analyser la représentation des sujets dans les moteurs de recherche" . Premier lundi . 20 (7). doi : 10.5210/fm.v20i7.5597 .
  54. ^ Parramore, Lynn (10 octobre 2010). "La bulle de filtre" . L'Atlantique . Récupéré le 20/04/2011 . Depuis le 4 décembre 2009, Google est personnalisé pour tout le monde. Ainsi, lorsque j'ai eu deux amis ce printemps sur Google "BP", l'un d'eux a obtenu un ensemble de liens concernant les opportunités d'investissement dans BP. L'autre a obtenu des informations sur la marée noire...
  55. ^ Weisberg, Jacob (10 juin 2011). "Bubble Trouble : la personnalisation du Web nous transforme-t-elle en idiots solipsistes ?" . Ardoise . Récupéré le 15/08/2011 .
  56. ^ Gross, Doug (19 mai 2011). "Ce qu'Internet vous cache" . CNN . Récupéré le 15/08/2011 . J'avais des amis Google BP lorsque la marée noire s'est produite. Ce sont deux femmes qui se ressemblaient à bien des égards. On a obtenu beaucoup de résultats sur les conséquences environnementales de ce qui se passait et du déversement. L'autre vient d'obtenir des informations sur les investissements et rien du tout sur le déversement.
  57. ^ Zhang, Yuan Cao; Séaghdha, Diarmuid Ó ; Quercia, Danièle; Jambor, Tamas (février 2012). "Auraliste : introduction de la sérendipité dans la recommandation musicale" (PDF) . ACM WSDM . doi : 10.1145/2124295.2124300 . S2CID 2956587 .  
  58. ^ O'Hara, K. (2014-07-01). "En adoration d'un écho". Informatique Internet IEEE . 18 (4): 79–83. doi : 10.1109/MIC.2014.71 . ISSN 1089-7801 . S2CID 37860225 .  
  59. ^ "Nouveau moteur de recherche approuvé par l'islam pour les musulmans" . News.msn.com. Archivé de l'original le 12/07/2013 . Récupéré le 11/07/2013 .
  60. ^ "Jewogle - FAQ" .
  61. ^ "Halalgoogling : les musulmans obtiennent leur propre Google" sans péché "; les chrétiens devraient-ils avoir un Google chrétien ? - Blog chrétien" . Blog chrétien . 2013-07-25.
  62. ^ Schwartz, Barry (2012-10-29). « Google : les services de soumission aux moteurs de recherche peuvent être nuisibles » . Table ronde sur les moteurs de recherche . Récupéré le 04/04/2016 .

Lectures complémentaires

Liens externes