Serveur de nouvelles

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche
Carte du fournisseur Usenet
Carte du fournisseur Usenet

Un serveur de nouvelles est un ensemble de logiciels utilisés pour gérer les articles Usenet . [1] Il peut également faire référence à un ordinateur lui-même qui est principalement ou uniquement utilisé pour gérer Usenet. L'accès à Usenet n'est disponible que par l'intermédiaire de fournisseurs de serveurs de nouvelles.

Articles et publications

Les utilisateurs finaux utilisent souvent le terme « publication » pour désigner un seul message ou fichier publié sur Usenet. Pour les articles contenant du texte brut, cela est synonyme d'un article. Pour le contenu binaire tel que les images et les fichiers, il est souvent nécessaire de répartir le contenu entre plusieurs articles. En règle générale, grâce à l'utilisation d'en-têtes numérotés Sujet :, les publications d'articles multiples sont automatiquement réassemblées en une seule unité par le lecteur de news . La plupart des serveurs ne font pas de distinction entre les publications en une seule partie et celles en plusieurs parties, ne traitant qu'au niveau des articles individuels. [2]

En-têtes et aperçus

Chaque article d'actualité contient un ensemble complet de lignes d'en-tête, mais dans l'usage courant, le terme «en-têtes» est également utilisé pour faire référence à la base de données News Overview . [2] L'aperçu est une liste des en-têtes les plus fréquemment utilisés et des informations supplémentaires telles que les tailles d'article, généralement récupérées par le logiciel client à l'aide de la commande NNTP XOVER . Les aperçus accélèrent la lecture d'un groupe de discussion à la fois pour le client et le serveur en éliminant le besoin d'ouvrir chaque article individuel pour les présenter sous forme de liste.

Si des en-têtes non généraux sont requis, comme lors de l'utilisation d'un fichier kill , il peut être nécessaire d'utiliser la méthode plus lente de lecture de tous les en-têtes d'articles complets. [1] De nombreux clients ne peuvent pas le faire et limitent le filtrage à ce qui est disponible dans les résumés. [2]

Attributs du serveur de news

Parmi les opérateurs et les utilisateurs de serveurs de nouvelles commerciaux, les préoccupations communes sont les exigences sans cesse croissantes de capacité de stockage et de réseau et leurs effets. [2] Achèvement (capacité d'un serveur à recevoir avec succès tout le trafic), rétention (la durée pendant laquelle les articles sont mis à la disposition des lecteurs) et performances globales du système. Avec les demandes croissantes, il est courant que les rôles de serveur de transit et de lecteur soient subdivisés en systèmes de numérotation, de stockage et frontaux. Ces fermes de serveurs sont surveillées en permanence par des initiés et des étrangers, et les mesures de ces caractéristiques sont souvent utilisées par les consommateurs lors du choix d'un service d'information commercial.

Vitesse

La vitesse, par rapport à Usenet, est la rapidité avec laquelle un serveur peut livrer un article à l'utilisateur. Le serveur auquel l'utilisateur se connecte fait généralement partie d'une batterie de serveurs comportant de nombreux serveurs dédiés à plusieurs tâches. La vitesse à laquelle les données peuvent se déplacer dans cette batterie de serveurs est la première chose qui affecte la vitesse de livraison. [ citation nécessaire ]

La vitesse de déplacement des données dans l'ensemble de la batterie de serveurs peut être fortement entravée par les opérations sur les disques durs. La récupération de l'article et des informations générales peut causer une charge considérable sur les disques durs. [ citation nécessaire ] Pour lutter contre cela, la technologie de mise en cache et les systèmes de stockage de fichiers cylindriques ont été développés. [ citation nécessaire ]

Une fois que la ferme est en mesure de fournir les données au réseau, le fournisseur a un contrôle limité sur la vitesse pour l'utilisateur. Étant donné que le chemin réseau vers chaque utilisateur est différent, certains utilisateurs auront de bons itinéraires et les données circuleront rapidement. D'autres utilisateurs auront des routeurs surchargés entre eux et le fournisseur, ce qui entraînera des retards. À peu près tout ce qu'un fournisseur peut faire dans ce cas, c'est essayer de déplacer le trafic par un itinéraire différent. Si le FAI a une connectivité limitée au réseau, les changements de routage peuvent avoir peu d'effet.

Souvent, un utilisateur peut réduire l'impact des problèmes de réseau en utilisant plusieurs connexions. Certains serveurs autorisent jusqu'à 60 connexions simultanées, mais cela varie considérablement en fonction du fournisseur. [3]

Tailles des articles

La taille des articles est limitée à ce que chaque serveur de nouvelles acceptera. Plus la taille de l'article est grande, plus il occupe d'espace, et donc moins il y a d'articles sur chaque serveur. Cela signifie généralement qu'un serveur peut fonctionner avec moins de surcharge, ce qui en fait un serveur plus efficace, mais donne moins d'articles auxquels les utilisateurs peuvent accéder. [ citation nécessaire ]

Rétention

La rétention est simplement définie comme la durée pendant laquelle le serveur conserve les articles. [4] Historiquement, la plupart des utilisateurs souhaitent que la durée de conservation soit suffisamment longue pour qu'ils n'aient pas besoin d'accéder au serveur tous les jours, mais pas une durée de conservation trop longue qui peut submerger les utilisateurs avec des ordinateurs ou des connexions réseau lents. [1] À l'ère moderne, les connexions à haut débit, la grande capacité de stockage et les outils de recherche avancés permettent aux utilisateurs d'utiliser une rétention étendue sans aucun inconvénient.

La rétention est généralement citée séparément pour les articles textuels et binaires, bien qu'elle puisse également varier entre les différents groupes au sein de ces catégories. Les délais varient considérablement en fonction de la quantité de stockage disponible sur les serveurs et de l'augmentation constante du trafic. Depuis 2009, il est courant que les fournisseurs de nouvelles moyens aient une rétention de texte de plus de 1000 jours et une rétention binaire de plus de 200 jours. [ citation nécessaire ] Les grands fournisseurs de nouvelles offrent une rétention de texte jusqu'à 2480 jours et une rétention binaire de 850 jours ou plus. [ citation nécessaire ]Il est important de comprendre que le temps de rétention varie entre les différents groupes de discussion dans les catégories textuelles et binaires. HW Media d'Omicron est actuellement le serveur Usenet avec la plus grande quantité de rétention binaire, tandis que Google est le serveur Usenet avec la plus grande quantité de rétention de texte. [ citation nécessaire ]

Il peut être difficile pour les utilisateurs finaux de mesurer avec précision la rétention d'un serveur. Une méthode courante consiste à examiner les articles les plus anciens d'un groupe et à examiner la date, mais ce n'est pas toujours exact. Certains articles d'un groupe peuvent être conservés plus longtemps que d'autres, les articles provenant de serveurs distants n'arrivent pas toujours rapidement et parfois les en-têtes de date sont tout simplement incorrects. Un échantillonnage de plusieurs ou de tous les articles, de préférence dans plus d'un groupe de discussion, est nécessaire pour détecter de telles anomalies.

Les serveurs de nouvelles n'ont pas de stockage illimité et, de ce fait, ils ne peuvent conserver les messages que pendant un certain temps avant de devoir les supprimer afin de faire de la place pour de nouveaux messages. C'est un problème particulier pour les newsgroups binaires qui transmettent de gros volumes d'articles.

Pour les serveurs de nouvelles fournis par les fournisseurs de services Internet dans le cadre du forfait d'abonnement d'un utilisateur, les taux de rétention typiques ne sont généralement que de 2 à 4 jours. [ citation nécessaire ] Pour faire face à l'augmentation du trafic Usenet, de nombreux fournisseurs se tournent vers un système hybride, dans lequel les anciens articles introuvables sur le serveur du fournisseur demanderont l'article à un autre serveur avec une rétention plus longue.

Achèvement

Compte tenu du grand nombre d'articles transférés entre les serveurs et de la grande taille des articles individuels, leur propagation complète vers une batterie de serveurs n'est pas garantie. Le terme "achèvement" est utilisé pour décrire dans quelle mesure un service suit le trafic. [ citation nécessaire ]

Le principal obstacle au calcul du pourcentage d'achèvement est le nombre d'articles publiés. En regardant un seul serveur, on ne peut pas savoir combien d'articles ont été réellement insérés sur le réseau. [ citation nécessaire ] Les articles peuvent ne jamais sortir du serveur d'origine ou ne pas parvenir au nuage de transit. Les articles très volumineux sont fréquemment abandonnés et ont tendance à se propager moins bien que les plus petits. [ citation nécessaire ]

Une façon de mesurer l'achèvement consiste à accéder à plusieurs serveurs et à récupérer des listes d'articles. Étant donné que Message-ID : les en-têtes sont nominalement uniques sur tout le réseau, la comparaison des listes est généralement une tâche simple. Les limites pratiques de ce type de mesure incluent l'impossibilité d'obtenir des listes de tous les serveurs dans le monde, le fait que de nombreux serveurs filtrent les spams ou utilisent Usenet Death Penalties , et que certains serveurs masquent l'inachèvement en masquant les ensembles binaires en plusieurs parties avec des articles manquants. [ citation nécessaire ] Il faut aussi tenir compte des temps de propagation et de rétention ; un article peut tout simplement ne pas être arrivé sur un serveur donné, ou il peut avoir été présent mais déjà expiré. [citation nécessaire ]

Fonctionnement du serveur de news

Appairage

Tous les serveurs Usenet s'apparient avec un ou plusieurs autres serveurs afin d'échanger des articles. Occasionnellement, de nouveaux serveurs apparaissent. Bien qu'il existe plusieurs ressources Web qui peuvent aider à trouver des pairs, une meilleure ressource est le newsgroup news.admin.peering (portail Google Groups). [ citation nécessaire ]

À partir de 2020, les flux de texte peuvent généralement être obtenus gratuitement, tandis que les flux binaires complets peuvent être gratuits ou payants (selon le nombre d'articles que chaque serveur envoie à l'autre). En raison de la grande quantité de données dans un flux Usenet binaire + texte complet (peut atteindre 30 téraoctets par jour) et des coûts élevés de transmission de ces données via un fournisseur de transit IP tel que Cogent , Telia ou Zayo , la plupart des fournisseurs Usenet ne s'engagent dans le peering binaire que lorsqu'ils sont interconnectés à un point d'échange Internet comme AMS-IX , SIX ou DeCIX .

Bobines

Lorsque le serveur stocke le corps d'un article, il le place dans une zone de stockage sur disque appelée génériquement "spool". [2] Il existe plusieurs manières courantes d'organiser la bobine :

  • Un fichier par article est le schéma de stockage le plus ancien, toujours utilisé sur des serveurs plus petits et répliqué sur de nombreux clients. Sa capacité de performance est une fonction directe de la capacité du système d'exploitation sous-jacent à créer, supprimer et localiser des fichiers dans un répertoire, et souvent ce schéma est insuffisant pour suivre le trafic Usenet moderne. Cependant, il permet une plus grande flexibilité dans la gestion de la quantité et de l'emplacement du stockage utilisé par le serveur. Presque tous les logiciels actuels utilisant ce schéma stockent les articles en utilisant la mise en page B News 2.10.
  • Le stockage cyclique est de plus en plus utilisé depuis les années 1990. Dans cette méthode de stockage, les articles sont ajoutés en série à de grands fichiers conteneurs indexés. Lorsque la fin du fichier est atteinte, de nouveaux articles sont écrits au début du fichier, écrasant les entrées les plus anciennes. Sur certains serveurs, cet écrasement n'est pas effectué, mais à la place, de nouveaux fichiers conteneurs sont créés au fur et à mesure que les anciens sont supprimés. Les principaux avantages de ce système comprennent des exigences de stockage prévisibles si un schéma d'écrasement est utilisé, et une certaine liberté vis-à-vis des performances sous-jacentes du système d'exploitation. Il y a cependant moins de flexibilité pour conserver les articles par âge plutôt que par espace utilisé, et les outils traditionnels de manipulation de texte tels que grepsont moins bien adaptés à l'analyse de ces fichiers. Un certain degré de contrôle de la longévité des articles peut être exercé en dirigeant des sous-ensembles des groupes de discussion vers des ensembles spécifiques de fichiers conteneurs.
  • Dans certains cas, une base de données relationnelle ou similaire est utilisée pour contenir le spool. Ceci est le plus souvent observé avec les logiciels de forum Internet qui offrent également une interface NNTP.
  • Certains serveurs, tels que INN , autorisent l'utilisation simultanée de plusieurs schémas de stockage. Divers schémas de stockage hybrides ont également été utilisés dans les serveurs de nouvelles, y compris différentes organisations de la méthode fichier par article, ou des conteneurs plus petits contenant peut-être 100 articles chacun.

Types de serveurs

Un serveur de lecture fournit une interface pour lire et publier des articles, généralement avec l'aide d'un client de nouvelles . Un serveur de transit échange des articles avec d'autres serveurs. La plupart des serveurs peuvent fournir les deux fonctions.

Serveur de transit

Les serveurs de transit modernes utilisent généralement NNTP pour échanger des informations en continu sur Internet et des connexions permanentes similaires. Dans le passé, les serveurs utilisaient normalement le protocole UUCP , qui était conçu pour les connexions commutées intermittentes. D'autres protocoles ad hoc , y compris le courrier électronique , sont moins courants. Les serveurs de nouvelles se connectent normalement à plusieurs pairs, la redondance aidant à répartir les charges et à garantir que les articles ne sont pas perdus. Les sites plus petits, appelés nœuds terminaux , sont connectés à un autre serveur principal. [2]

Les articles sont acheminés en fonction des informations trouvées dans les lignes d'en-tête définies dans la RFC 1036. [ citation nécessaire ] D'un intérêt particulier pour un serveur de transit sont :

  • Message-ID - une clé unique au monde
  • Groupes de discussion - une liste d'un ou plusieurs groupes de discussion où l'article est destiné à apparaître
  • Distribution - (facultatif) un supplément aux groupes de discussion, utilisé pour restreindre la circulation des articles.
  • Date - l'heure à laquelle l'article a été créé
  • Chemin - une liste des serveurs par lesquels un article est passé sur son chemin vers le serveur local
  • Expire - (facultatif) l'heure à laquelle il est demandé que l'article soit supprimé
  • Approuvé - (facultatif) indique un article qui a été accepté pour un groupe de discussion modéré
  • Contrôle - (facultatif) contient des demandes de commande

Dans la plupart des cas, le serveur d'envoi contrôle le processus de transfert d'articles. Il compare les groupes de discussion et la distribution de chaque article nouvellement arrivé à un ensemble de modèles appelés flux de nouvelles , répertoriant chaque serveur distant et les groupes de discussion que son opérateur souhaite recevoir. Certains expéditeurs examinent également le Chemin ; si le serveur de réception apparaît dans cette ligne, il n'est pas proposé. D'autres règles locales peuvent également être ajoutées. L'expéditeur transmet les ID de message des articles correspondants au serveur de réception. Le destinataire indique les ID de message qu'il n'a pas encore stockés localement, et ces articles sont envoyés. [2]

Le serveur de réception examine les articles entrants. Un message est normalement rejeté si le Message-ID est dupliqué par un article déjà reçu (c'est-à-dire qu'un autre serveur l'a envoyé entre-temps), les lignes Date ou Expires indiquent que l'article est trop ancien, la syntaxe de l'en-tête semble invalide, l'en-tête Approuvé est manquant pour un groupe de discussion modéré, ou des règles locales supplémentaires l'interdisent. [ citation nécessaire ] La plupart des serveurs maintiennent également une liste des groupes de discussion actifs. Si l'en-tête Newsgroups d'un nouvel article ne correspond pas à la liste active, il peut être supprimé ou placé dans un newsgroup spécial "junk". Une fois l'article stocké, le serveur tente de le retransmettre à tous les serveurs de sa propre liste de fils d'actualité. [2]

Les articles avec des lignes de contrôle reçoivent un traitement spécial. Ils sont généralement classés dans des groupes de discussion spéciaux "de contrôle" et peuvent amener le serveur à exécuter automatiquement des actions exceptionnelles. Les commandes newgroupet rmgrouppeuvent entraîner la création ou la suppression de groupes de discussion ; checkgroupspeut être utilisé pour réconcilier la liste active locale avec un ensemble communément accepté ; et cancelles commandes sont utilisées pour demander la suppression d'un article spécifique. ihaveet sendmesont parfois utilisés avec UUCP pour transmettre des listes d'identifiants de message offerts et souhaités. Les autres commandes ( version, sendsyset uuname) sont des demandes de détails de configuration du serveur. Autrefois utilisés pour créer des cartes de réseau, ils sont désormais généralement obsolètes. [2]

Serveur de lecture

Un serveur de lecture est un serveur qui rend les articles disponibles dans le format de répertoire de disque hiérarchique créé par B News 2.10, ou offre les commandes NNTP ou IMAP , à utiliser par les lecteurs de nouvelles. Un serveur de lecture fonctionne généralement aussi comme un serveur de transit, mais il peut fonctionner indépendamment ou servir d'interface alternative à un forum Internet . Lors de la réception de nouvelles, ce type de serveur doit effectuer les étapes supplémentaires consistant à classer les articles dans des groupes de discussion et à attribuer des numéros séquentiels au sein de chaque groupe. Une Xréfligne est généralement ajoutée, répertoriant tous les groupes où le message apparaît et les numéros de séquence. Contrairement aux identifiants de message, les numéros et l'ordre des articles seront différents sur chaque serveur ; mais les serveurs associés peuvent forcer l'accord en fonctionnant en mode esclave, en réutilisant les lignes Xref de leurs frères et sœurs. Les serveurs de lecteurs maintiennent également généralement une base de données News Overview (NOV) qui permet aux lecteurs de nouvelles d'obtenir rapidement des résumés de messages et de présenter les messages sous forme de fils de discussion. [2]

La plupart des serveurs de lecture prennent en charge la publication, soit via NNTP, soit via un programme inews spécial . [ citation nécessaire ] Lorsqu'un article est publié, le processus est sensiblement le même que lorsqu'un serveur de transit reçoit des nouvelles, mais avec des vérifications supplémentaires. Pour la publication, le serveur remplira normalement les lignes Path et Message-ID manquantes et vérifiera la syntaxe des en-têtes destinés aux lecteurs humains, tels que From et Subject . Si l'article est publié dans un groupe modéré, le serveur tentera de l'envoyer au modérateur du groupe de discussion si l'en-tête Approuvé est absent. Des contrôles d'identité et des filtres supplémentaires sont également généralement appliqués à ce stade. [2]

Serveur hybride ou cache

Les sites plus petits avec une bande passante réseau limitée peuvent exploiter des serveurs "d'aspiration" ou de cache . Ceux-ci remplissent le même rôle de serveur de lecture que les serveurs de news classiques, mais agissent eux-mêmes comme des lecteurs de news pour échanger des articles avec d'autres serveurs de lecture. [ citation nécessaire ] Les serveurs hybrides permettent une plus grande flexibilité pour l'opérateur du serveur dans la mesure où les groupes reçus peuvent être ajustés sans intervention manuelle des opérateurs. Ils peuvent également être le seul moyen disponible pour obtenir des articles à partir de serveurs distants qui n'offrent pas d'alimentation conventionnelle.

Étant donné que les serveurs hybrides utilisent généralement la fonction de publication pour envoyer des nouvelles, les en-têtes d'articles sont reformatés par la fonction de publication et les informations de suivi peuvent être perdues. De plus, le processus d'aspiration retardé peut entraîner une activité excessive sur les serveurs de lecture à distance. Pour ces raisons, l'utilisation de serveurs hybrides est souvent déconseillée ou interdite sans accord préalable. [2]

Voir aussi

Références

  1. ^ un bc Pegoraro , Rob (30 janvier 1990). « Usenet : L'« autre » Internet » . Poste de Washington . Consulté le 28 juillet 2020 .
  2. ^ un bcd e f g h i j k l McDermott , James; Phillips, John (1er mai 1997). Administration des serveurs de nouvelles Usenet : un guide complet pour la planification, la construction et la gestion des services de nouvelles Internet et intranet . Addison-Wesley. ISBN 020141967X.
  3. ^ "Connexions au serveur Usenet expliquées" . Ingénierie TechSono . Consulté le 28 juillet 2020 .
  4. ^ "Rétention des groupes de discussion Usenet" . Usenet.com . Consulté le 28 juillet 2020 .

Liens externes