Classement statistique

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

En statistique , la classification est le problème d'identification à laquelle d'un ensemble de catégories (sous-populations) une observation (ou des observations) appartient. Des exemples sont l'attribution d'un e-mail donné à la classe "spam" ou "non-spam" , et l'attribution d'un diagnostic à un patient donné en fonction des caractéristiques observées du patient (sexe, tension artérielle, présence ou absence de certains symptômes, etc.) .

Souvent, les observations individuelles sont analysées en un ensemble de propriétés quantifiables, appelées variables explicatives ou caractéristiques . Ces propriétés peuvent être catégorielles (par exemple "A", "B", "AB" ou "O", pour le groupe sanguin ), ordinales (par exemple "grand", "moyen" ou "petit"), entières (par exemple le nombre d'occurrences d'un mot particulier dans un e- mail ) ou à valeur réelle (par exemple une mesure de la tension artérielle ).

Un algorithme qui implémente la classification, en particulier dans une implémentation concrète, est appelé classifieur . Le terme « classificateur » fait parfois également référence à la fonction mathématique , mise en œuvre par un algorithme de classification, qui mappe les données d'entrée à une catégorie.

La terminologie dans les domaines est assez variée. En statistique , où la classification est souvent effectuée avec une régression logistique ou une procédure similaire, les propriétés des observations sont appelées variables explicatives (ou variables indépendantes , régresseurs, etc.), et les catégories à prédire sont appelées résultats, qui sont considérés comme être des valeurs possibles de la variable dépendante . Dans l'apprentissage automatique , les observations sont souvent appelées instances , les variables explicatives sont appelées caractéristiques (regroupées dans un vecteur de caractéristiques ) et les catégories possibles à prédire sont des classes .. D'autres domaines peuvent utiliser une terminologie différente : par exemple, en écologie communautaire , le terme « classification » fait normalement référence à l'analyse par grappes .

Relation avec d'autres problèmes

La classification et le regroupement sont des exemples du problème plus général de la reconnaissance de formes , qui est l'attribution d'une sorte de valeur de sortie à une valeur d'entrée donnée. D'autres exemples sont regression , qui attribue une sortie à valeur réelle à chaque entrée ; l'étiquetage de séquence , qui attribue une classe à chaque membre d'une séquence de valeurs (par exemple, une partie de l'étiquetage de la parole , qui attribue une partie de la parole à chaque mot dans une phrase d'entrée) ; parsing , qui attribue un arbre d'analyse à une phrase d'entrée, décrivant la structure syntaxique de la phrase ; etc.

Une sous-classe courante de classification est la classification probabiliste . Les algorithmes de cette nature utilisent l'inférence statistique pour trouver la meilleure classe pour une instance donnée. Contrairement à d'autres algorithmes, qui génèrent simplement une "meilleure" classe, les algorithmes probabilistes génèrent une probabilité que l'instance soit membre de chacune des classes possibles. La meilleure classe est alors normalement sélectionnée comme celle avec la probabilité la plus élevée. Cependant, un tel algorithme présente de nombreux avantages par rapport aux classificateurs non probabilistes :

  • Il peut produire une valeur de confiance associée à son choix (en général, un classificateur qui peut faire cela est appelé classificateur pondéré par la confiance ).
  • En conséquence, il peut s'abstenir lorsque sa confiance dans le choix d'une sortie particulière est trop faible.
  • En raison des probabilités générées, les classificateurs probabilistes peuvent être intégrés plus efficacement dans des tâches d'apprentissage automatique plus importantes, d'une manière qui évite partiellement ou complètement le problème de la propagation des erreurs .

fréquentistes

Les premiers travaux sur la classification statistique ont été entrepris par Fisher , [1] [2] dans le contexte de problèmes à deux groupes, conduisant à la fonction discriminante linéaire de Fisher comme règle d'attribution d'un groupe à une nouvelle observation. [3] Ces premiers travaux supposaient que les valeurs de données au sein de chacun des deux groupes avaient une distribution normale multivariée . L'extension de ce même contexte à plus de deux groupes a également été envisagée avec une restriction imposée que la règle de classement soit linéaire . [3] [4] Des travaux ultérieurs pour la distribution normale multivariée ont permis au classificateur d'être non linéaire : [5]plusieurs règles de classification peuvent être dérivées sur la base de différents ajustements de la distance de Mahalanobis , une nouvelle observation étant attribuée au groupe dont le centre a la distance ajustée la plus faible par rapport à l'observation.

bayésiennes

Contrairement aux procédures fréquentistes, les procédures de classification bayésienne offrent un moyen naturel de prendre en compte toute information disponible sur les tailles relatives des différents groupes au sein de la population globale. [6] Les procédures bayésiennes ont tendance à être coûteuses en calcul et, dans les jours précédant le développement des calculs Monte Carlo de la chaîne de Markov , des approximations des règles de regroupement bayésiennes ont été conçues. [7]

Certaines procédures bayésiennes impliquent le calcul de probabilités d'appartenance à un groupe : celles-ci fournissent un résultat plus informatif qu'une simple attribution d'une seule étiquette de groupe à chaque nouvelle observation.

Classification binaire et multiclasse

La classification peut être considérée comme deux problèmes distincts : la classification binaire et la classification multiclasse . Dans la classification binaire, une tâche mieux comprise, seules deux classes sont impliquées, alors que la classification multiclasse consiste à affecter un objet à l'une de plusieurs classes. [8] Étant donné que de nombreuses méthodes de classification ont été développées spécifiquement pour la classification binaire, la classification multiclasse nécessite souvent l'utilisation combinée de plusieurs classificateurs binaires.

Vecteurs de caractéristiques

La plupart des algorithmes décrivent une instance individuelle dont la catégorie doit être prédite à l'aide d'un vecteur de caractéristiques de propriétés individuelles mesurables de l'instance. Chaque propriété est appelée une caractéristique , également connue en statistique comme une variable explicative (ou variable indépendante , bien que les caractéristiques puissent ou non être statistiquement indépendantes ). Les fonctionnalités peuvent être binaires (par exemple "on" ou "off"); catégorique (par exemple « A », « B », « AB » ou « O », pour le groupe sanguin ); ordinal (par exemple "grand", "moyen" ou "petit"); valeur entière (par exemple le nombre d'occurrences d'un mot particulier dans un e-mail) ; ouà valeur réelle (par exemple une mesure de la tension artérielle). Si l'instance est une image, les valeurs des caractéristiques peuvent correspondre aux pixels d'une image ; si l'instance est un morceau de texte, les valeurs de caractéristique peuvent être des fréquences d'occurrence de mots différents. Certains algorithmes ne fonctionnent qu'en termes de données discrètes et nécessitent que les données à valeurs réelles ou entières soient discrétisées en groupes (par exemple moins de 5, entre 5 et 10, ou plus de 10).

Classificateurs linéaires

Un grand nombre d' algorithmes de classification peuvent être formulés en termes de fonction linéaire qui attribue un score à chaque catégorie possible k en combinant le vecteur de caractéristiques d'une instance avec un vecteur de poids, à l'aide d'un produit scalaire . La catégorie prédite est celle avec le score le plus élevé. Ce type de fonction de score est connu sous le nom de fonction de prédiction linéaire et a la forme générale suivante :

X i est le vecteur de caractéristiques par exemple i , β k est le vecteur de poids correspondant à la catégorie k , et score( X i , k ) est le score associé à l'attribution de l'instance i à la catégorie k . Dans la théorie des choix discrets , où les instances représentent les personnes et les catégories représentent les choix, le score est considéré comme l' utilité associée à la personne i choisissant la catégorie k .

Les algorithmes avec cette configuration de base sont appelés classificateurs linéaires . Ce qui les distingue est la procédure de détermination (entraînement) des poids/coefficients optimaux et la manière dont le score est interprété.

Des exemples de tels algorithmes sont

Algorithmes

Étant donné qu'aucune forme unique de classification n'est appropriée pour tous les ensembles de données, une grande boîte à outils d'algorithmes de classification a été développée. Les plus couramment utilisés incluent : [9]

Évaluation

Les performances du classifieur dépendent fortement des caractéristiques des données à classer. Il n'y a pas de classificateur unique qui fonctionne le mieux sur tous les problèmes donnés (un phénomène qui peut s'expliquer par le théorème du non-déjeuner libre ). Divers tests empiriques ont été effectués pour comparer les performances du classificateur et pour trouver les caractéristiques des données qui déterminent les performances du classificateur. Déterminer un classificateur approprié pour un problème donné est cependant encore plus un art qu'une science.

La précision et le rappel des mesures sont des mesures populaires utilisées pour évaluer la qualité d'un système de classification. Plus récemment, des courbes de caractéristique de fonctionnement du récepteur (ROC) ont été utilisées pour évaluer le compromis entre les taux de vrais et de faux positifs des algorithmes de classification.

En tant que mesure de performance, le coefficient d'incertitude a l'avantage sur la précision simple en ce qu'il n'est pas affecté par les tailles relatives des différentes classes. [10] De plus, cela ne pénalisera pas un algorithme pour simplement réarranger les classes.

Domaines d'application

La classification a de nombreuses applications. Dans certains d'entre eux, il est utilisé comme procédure d'exploration de données , tandis que dans d'autres, une modélisation statistique plus détaillée est entreprise.

Voir aussi

Références

  1. ^ Fisher, RA (1936). "L'utilisation de mesures multiples dans les problèmes taxonomiques". Annales de l'eugénisme . 7 (2): 179–188. doi : 10.1111/j.1469-1809.1936.tb02137.x . manche : 2440/15227 .
  2. ^ Fisher, RA (1938). "L'utilisation statistique des mesures multiples". Annales de l'eugénisme . 8 (4): 376–386. doi : 10.1111/j.1469-1809.1938.tb02189.x . manche : 2440/15232 .
  3. ^ un b Gnanadesikan, R. (1977) Méthodes pour l'Analyse de Données Statistiques d'Observations Multivariées , Wiley. ISBN 0-471-30845-5 (p. 83–86) 
  4. ^ Rao, CR (1952) Méthodes statistiques avancées en analyse multivariée , Wiley. (article 9c)
  5. ^ Anderson, TW (1958) Une introduction à l'analyse statistique multivariée , Wiley.
  6. ^ Classeur, DA (1978). "Analyse de cluster bayésienne". Biométrie . 65 : 31–38. doi : 10.1093/biomet/65.1.31 .
  7. ^ Classeur, David A. (1981). "Approximations aux règles de regroupement bayésiennes". Biométrie . 68 : 275–285. doi : 10.1093/biomet/68.1.275 .
  8. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Classification des contraintes pour la classification et le classement multiclasses." Dans : Becker, B., Thrun, S. , Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15 : Actes de la conférence 2002 , MIT Press. ISBN 0-262-02550-7 
  9. ^ "Une visite des 10 meilleurs algorithmes pour les débutants en apprentissage automatique" . Intégré . 2018-01-20 . Récupéré le 10/06/2019 .
  10. ^ Peter Mills (2011). "Classification statistique efficace des mesures satellitaires". Journal international de télédétection . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS...32.6109M . doi : 10.1080/01431161.2010.507795 . S2CID 88518570 .