Apprentissage non supervisé

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

L'apprentissage non supervisé ( UL ) est un type d' algorithme qui apprend des modèles à partir de données non étiquetées. L'espoir est que, par mimétisme, la machine soit obligée de construire une représentation interne compacte de son monde et ensuite de générer un contenu imaginatif. Contrairement à l' apprentissage supervisé (SL) où les données sont étiquetées par un humain, par exemple comme « voiture » ​​ou « poisson », etc., l'UL présente une auto-organisation qui capture des modèles sous forme de prédilections neuronales ou de densités de probabilité. [1] Les autres niveaux du spectre de supervision sont l' apprentissage par renforcement où la machine ne reçoit qu'un score de performance numérique comme guide, et l' apprentissage semi-superviséoù une plus petite partie des données est étiquetée. Deux grandes méthodes en UL sont les réseaux de neurones et les méthodes probabilistes.

Méthodes probabilistes

Deux des principales méthodes utilisées dans l'apprentissage non supervisé sont l' analyse en composantes principales et l' analyse en grappes . L'analyse de cluster est utilisée dans l'apprentissage non supervisé pour regrouper ou segmenter des ensembles de données avec des attributs partagés afin d'extrapoler des relations algorithmiques. [2] L' analyse de cluster est une branche de l'apprentissage automatique qui regroupe les données qui n'ont pas été étiquetées , classées ou catégorisées. Au lieu de répondre aux commentaires, l'analyse de cluster identifie les points communs dans les données et réagit en fonction de la présence ou de l'absence de ces points communs dans chaque nouvelle donnée. Cette approche permet de détecter des points de données anormaux qui ne correspondent à aucun des deux groupes.

Une application centrale de l'apprentissage non supervisé se trouve dans le domaine de l' estimation de la densité en statistiques , [3] bien que l'apprentissage non supervisé englobe de nombreux autres domaines impliquant le résumé et l'explication des caractéristiques des données. Il peut être opposé à l'apprentissage supervisé en disant que, tandis que l'apprentissage supervisé a l'intention d'inférer une distribution de probabilité conditionnelle conditionné sur l'étiquette des données d'entrée ; l'apprentissage non supervisé vise à déduire une distribution de probabilité a priori.

Approches

Certains des algorithmes les plus couramment utilisés dans l'apprentissage non supervisé comprennent : (1) le regroupement, (2) la détection d'anomalies, (3) les réseaux de neurones et (4) les approches d'apprentissage des modèles à variables latentes. Chaque approche utilise plusieurs méthodes comme suit :

Méthode des moments

L'une des approches statistiques de l'apprentissage non supervisé est la méthode des moments . Dans la méthode des moments, les paramètres inconnus (d'intérêt) dans le modèle sont liés aux moments d'une ou plusieurs variables aléatoires, et ainsi, ces paramètres inconnus peuvent être estimés compte tenu des moments. Les moments sont généralement estimés à partir d'échantillons empiriquement. Les moments de base sont les moments du premier et du second ordre. Pour un vecteur aléatoire, le moment de premier ordre est le vecteur moyen et le moment de deuxième ordre est la matrice de covariance (lorsque la moyenne est nulle). Les moments d'ordre supérieur sont généralement représentés à l'aide de tenseurs qui sont la généralisation de matrices à des ordres supérieurs sous forme de tableaux multidimensionnels.

En particulier, la méthode des moments s'avère efficace pour apprendre les paramètres des modèles à variables latentes . [6] Les modèles à variables latentes sont des modèles statistiques où, en plus des variables observées, il existe également un ensemble de variables latentes qui ne sont pas observées. Un exemple très pratique de modèles de variables latentes dans l'apprentissage automatique est la modélisation de sujetqui est un modèle statistique pour générer les mots (variables observées) dans le document en fonction du sujet (variable latente) du document. Dans la modélisation de sujet, les mots du document sont générés selon différents paramètres statistiques lorsque le sujet du document est modifié. Il est montré que la méthode des moments (techniques de décomposition tensorielle) récupère systématiquement les paramètres d'une grande classe de modèles à variables latentes sous certaines hypothèses. [6]

L' algorithme d'espérance-maximisation (EM) est également l'une des méthodes les plus pratiques pour apprendre les modèles de variables latentes. Cependant, il peut rester bloqué dans des optima locaux, et il n'est pas garanti que l'algorithme convergera vers les véritables paramètres inconnus du modèle. En revanche, pour la méthode des moments, la convergence globale est garantie sous certaines conditions. [6]

Réseaux de neurones

Bases

Tout d'abord, un peu de vocabulaire :

Activation = valeur d'état du neurone. Pour les neurones binaires, c'est généralement 0/1, ou +1 / -1.
CAME = mémoire adressable par le contenu . Rappel d'une mémoire par un motif partiel au lieu d'une adresse mémoire.
convergence = la stabilisation d'un schéma d'activation sur un réseau. Dans SL, la convergence signifie la stabilisation des poids et des biais plutôt que des activations.
tâche discriminante = relatif aux tâches de reconnaissance. Aussi appelée analyse (en théorie des motifs ), ou inférence.
énergie = une grandeur macroscopique décrivant le modèle d'activation dans un réseau. (voir ci-dessous)
généralisation = se comporter avec précision sur des entrées non rencontrées auparavant
tâche générative = Machine imaginée et tâche de rappel. parfois appelé synthèse (dans la théorie des motifs), mimétisme ou contrefaçons profondes . Chez l'homme, cela s'appellerait imagination et créativité.
inférence = la phase "run" (par opposition à l'entraînement). Pendant l'inférence, le réseau exécute la tâche pour laquelle il est formé : soit reconnaître un modèle (SL) soit en créer un (UL). Habituellement, l'inférence descend le gradient d'une fonction énergétique. Contrairement à SL, la descente de gradient se produit pendant l'entraînement, PAS l'inférence.
vision artificielle = apprentissage automatique sur les images.
PNL = Traitement du langage naturel . Apprentissage automatique des langues humaines.
modèle = activations de réseau qui ont un ordre interne dans un certain sens, ou qui peuvent être décrites de manière plus compacte par des fonctionnalités dans les activations. Par exemple, le motif de pixel d'un zéro, qu'il soit donné sous forme de données ou imaginé par le réseau, a une caractéristique qui peut être décrite comme une boucle unique. Les caractéristiques sont codées dans les neurones cachés.
entraînement = la phase d'apprentissage. Ici, le réseau ajuste ses poids et biais pour apprendre des entrées.

Tâches

Tendance pour une tâche à employer des méthodes supervisées ou non supervisées

Les méthodes UL préparent généralement un réseau pour des tâches génératives plutôt que pour la reconnaissance, mais le regroupement des tâches comme supervisées ou non peut être flou. Par exemple, la reconnaissance de l'écriture manuscrite a commencé dans les années 1980 sous le nom de SL. Puis en 2007, UL est utilisé pour amorcer le réseau pour SL par la suite. Actuellement, SL a regagné sa position de meilleure méthode de reconnaissance d'objets.

Entraînement
Pendant la phase d'apprentissage, un réseau non supervisé essaie d'imiter les données qui lui sont fournies et utilise l'erreur dans sa sortie imitée pour se corriger (par exemple, ses poids et ses biais). Cela ressemble au comportement de mimétisme des enfants lorsqu'ils apprennent une langue. Parfois, l'erreur est exprimée comme une faible probabilité que la sortie erronée se produise, ou elle peut être exprimée comme un état instable à haute énergie dans le réseau.

Énergie
Une fonction énergétique est une mesure macroscopique de l'état d'un réseau. Cette analogie avec la physique est inspirée de l'analyse de Ludwig Boltzmann de l'énergie macroscopique d'un gaz à partir des probabilités microscopiques de mouvement des particules pe E/kT , où k est la constante de Boltzmann et T est la température. Dans le réseau RBM, la relation est p = e −E / Z, [7] où p & E varient sur chaque modèle d'activation possible et Z =e -E(motif) . Pour être plus précis, p(a) = e -E(a) / Z, où a est un schéma d'activation de tous les neurones (visibles et cachés). Par conséquent, les premiers réseaux de neurones portent le nom de machine de Boltzmann. Paul Smolensky appelle -E l'Harmonie. Un réseau recherche une faible énergie qui est une grande Harmonie.

Réseaux

Hopfield Boltzmann GAR Helmholtz Encodeur automatique VAE
Hopfield-net-vector.svg
Boltzmannexamplev1.png
machine Boltzmann restreinte
Machine de Helmholtz.png
encodeur automatique
encodeur variationnel

Boltzmann et Helmholtz sont antérieurs aux formulations de réseaux de neurones, mais ces réseaux ont emprunté à leurs analyses, ces réseaux portent donc leurs noms. Hopfield, cependant, a directement contribué à UL.

Intermédiaire

Ici, les distributions p(x) et q(x) seront abrégées en p et q.

Histoire

1969 Perceptrons de Minsky & Papert montre qu'un perceptron sans couches cachées échoue sur XOR
années 1970 (dates approximatives) AI hiver I
1974 Modèle magnétique d'Ising proposé par WA Little pour la cognition
1980 Fukushima introduit le néocognitron, qui sera plus tard appelé réseau de neurones à convolution. Il est principalement utilisé dans SL, mais mérite une mention ici.
1982 Ising variant Hopfield net décrit comme CAM et classificateurs par John Hopfield.
1983 Machine de Boltzmann variante d'Ising avec des neurones probabilistes décrite par Hinton & Sejnowski à la suite des travaux de 1975 de Sherington & Kirkpatrick.
1986 Paul Smolensky publie Harmony Theory, qui est un RBM avec pratiquement la même fonction énergétique de Boltzmann. Smolensky n'a pas donné de programme de formation pratique. Hinton l'a fait au milieu des années 2000
1995 Schmidthuber présente le neurone LSTM pour les langues.
1995 Dayan & Hinton présente la machine Helmholtz
1995-2005 (dates approximatives) AI hiver II
2013 Kingma, Rezende, & co. introduit les autoencodeurs variationnels en tant que réseau de probabilité graphique bayésien, avec des réseaux de neurones comme composants.

Un peu plus de vocabulaire :

Probabilité
cdf = fonction de distribution cumulée. l'intégrale du pdf. La probabilité de s'approcher de 3 est l'aire sous la courbe entre 2,9 et 3,1.
divergence contrastive = une méthode d'apprentissage où l'on diminue l'énergie sur les schémas d'entraînement et augmente l'énergie sur les schémas indésirables en dehors de l'ensemble d'entraînement. Ceci est très différent de la divergence KL, mais partage une formulation similaire.
valeur attendue = E(x) = x * p(x). C'est la valeur moyenne, ou valeur moyenne. Pour l'entrée continue x, remplacez la somme par une intégrale.
variable latente = une quantité non observée qui aide à expliquer les données observées. par exemple, une infection grippale (non observée) peut expliquer pourquoi une personne éternue (observée). Dans les réseaux de neurones probabilistes, les neurones cachés agissent comme des variables latentes, bien que leur interprétation latente ne soit pas explicitement connue.
pdf = fonction de densité de probabilité. Probabilité qu'une variable aléatoire prenne une certaine valeur. Pour un pdf continu, p(3) = 1/2 peut toujours signifier qu'il y a presque zéro chance d'atteindre cette valeur exacte de 3. Nous rationalisons cela avec le cdf.
stochastique = se comporte selon une formule de densité de probabilité bien décrite.
Thermodynamique
Répartition Boltzmann = distribution de Gibbs. pe E/kT
entropie = informations attendues = p * log p
L'énergie gratuite de Gibbs = potentiel thermodynamique. C'est le travail réversible maximum qui peut être effectué par un système de chaleur à température et pression constantes. énergie libre G = chaleur - température * entropie
information = la quantité d'informations d'un message x = -log p(x)
KLD = entropie relative. Pour les réseaux probabilistes, c'est l'analogue de l'erreur entre l'entrée et la sortie imitée. La divergence de Kullback-Liebler (KLD) mesure l'écart d'entropie d'une distribution par rapport à une autre distribution. KLD(p,q) =p * log( p / q ). En règle générale, p reflète les données d'entrée, q reflète l'interprétation du réseau et KLD reflète la différence entre les deux.

Comparaison des réseaux

Hopfield Boltzmann GAR Helmholtz Encodeur automatique VAE
usage & notables CAM, problème de voyageur de commerce CAME. La liberté des connexions rend ce réseau difficile à analyser. reconnaissance de formes (MNIST, reconnaissance vocale) imagination, mimétisme langue : écriture créative, traduction. Vision : améliorer les images floues générer des données réalistes
neurone état binaire déterministe. Activation = { 0 (ou -1) si x est négatif, 1 sinon } neurone de Hopfield binaire stochastique binaire stochastique. Étendu à la valeur réelle au milieu des années 2000 stochastique, binaire, sigmoïde langue : LSTM. vision : champs récepteurs locaux. activation de relu généralement à valeur réelle.
Connexions 1 couche avec poids symétriques. Pas d'auto-connexions. 2 couches. 1-caché & 1-visible. poids symétriques. <-- pareil.
pas de connexions latérales au sein d'une couche.
3 couches : poids asymétriques. 2 réseaux combinés en 1. 3 couches. L'entrée est considérée comme une couche même si elle n'a pas de poids entrants. couches récurrentes pour la PNL. convolutions d'anticipation pour la vision. l'entrée et la sortie ont le même nombre de neurones. 3 couches : entrée, encodeur, distribution sampler décodeur. le préleveur n'est pas considéré comme une couche(e)
inférence et énergie l'énergie est donnée par la mesure de probabilité de Gibbs : pareil pareil minimiser la divergence KL l'inférence n'est qu'un feed-forward. les réseaux UL précédents fonctionnaient en avant ET en arrière minimiser l'erreur = erreur de reconstruction - KLD
entraînement Δw ij = s i *s j , pour +1/-1 neurone w ij = e*(p ij - p' ij ). Ceci est dérivé de la minimisation de KLD. e = taux d'apprentissage, p' = prédit et p = distribution réelle. divergence contrastive avec échantillonnage de Gibbs entraînement réveil-sommeil en 2 phases Retour propager l'erreur de reconstruction reparamétrer l'état caché pour backprop
force ressemble à des systèmes physiques donc il hérite de leurs équations <--- pareil. les neurones cachés agissent comme une représentation interne du monde externe programme de formation plus rapide et plus pratique que les machines Boltzmann légèrement anatomique. analysable avec la théorie de l'information et la mécanique statistique
la faiblesse difficile à former en raison des connexions latérales

Réseaux spécifiques
Ici, nous mettons en évidence certaines caractéristiques de chaque réseau. Le ferromagnétisme a inspiré les réseaux de Hopfield, les machines de Boltzmann et les RBM. Un neurone correspond à un domaine de fer avec des moments magnétiques binaires haut et bas, et les connexions neuronales correspondent à l'influence du domaine les uns sur les autres. Les connexions symétriques permettent une formulation énergétique globale. Pendant l'inférence, le réseau met à jour chaque état à l'aide de la fonction d'étape d'activation standard. Les poids symétriques garantissent la convergence vers un modèle d'activation stable.
Les réseaux Hopfield sont utilisés comme CAM et sont garantis pour s'adapter à un certain modèle. Sans poids symétriques, le réseau est très difficile à analyser. Avec la bonne fonction énergétique, un réseau convergera.
Machines Boltzmannsont des réseaux de Hopfield stochastiques. Leur valeur d'état est échantillonnée à partir de cette pdf comme suit : supposons qu'un neurone binaire se déclenche avec la probabilité de Bernoulli p(1) = 1/3 et repose avec p(0) = 2/3. On en échantillonne en prenant un nombre aléatoire y distribué UNIFORMEMENT, et en le branchant sur la fonction de distribution cumulative inversée, qui est dans ce cas la fonction échelon seuillée à 2/3. La fonction inverse = { 0 si x <= 2/3, 1 si x > 2/3 }
HelmholtzLes machines sont les premières inspirations des encodeurs automatiques variationnels. Il s'agit de 2 réseaux combinés en un seul : les pondérations avant opèrent la reconnaissance et les pondérations arrière mettent en œuvre l'imagination. C'est peut-être le premier réseau à faire les deux. Helmholtz n'a pas travaillé dans le domaine de l'apprentissage automatique mais il a inspiré le point de vue du « moteur d'inférence statistique dont la fonction est d'inférer les causes probables de l'entrée sensorielle » (3). le neurone binaire stochastique génère une probabilité que son état soit 0 ou 1. L'entrée de données n'est normalement pas considérée comme une couche, mais dans le mode de génération de machine de Helmholtz, la couche de données reçoit l'entrée de la couche intermédiaire a des poids séparés à cette fin, donc il est considéré comme une couche. Par conséquent, ce réseau a 3 couches.
Autoencodeur variationnel(VAE) s'inspirent des machines de Helmholtz et combinent réseau de probabilité et réseaux de neurones. Un Autoencodeur est un réseau CAM à 3 couches, où la couche intermédiaire est censée être une représentation interne des modèles d'entrée. Les poids sont nommés phi et thêta plutôt que W et V comme dans Helmholtz, une différence cosmétique. Le codeur réseau de neurones est une distribution de probabilité q φ (z | x) et le réseau de décodeur est p θ (x | z). Ces 2 réseaux ici peuvent être entièrement connectés, ou utiliser un autre schéma NN.

Hebbian Learning, ART, SOM
L'exemple classique d'apprentissage non supervisé dans l'étude des réseaux de neurones est le principe de Donald Hebb , c'est-à-dire que les neurones qui s'activent ensemble se connectent ensemble. [8] Dans l' apprentissage hebbien , la connexion est renforcée indépendamment d'une erreur, mais est exclusivement fonction de la coïncidence entre les potentiels d'action entre les deux neurones. [9] Une version similaire qui modifie les poids synaptiques prend en compte le temps entre les potentiels d'action ( spike-timing-dependent plasticity ou STDP). Hebbian Learning a émis l'hypothèse qu'il sous-tend une gamme de fonctions cognitives, telles que la reconnaissance de formes et l'apprentissage expérientiel.

Parmi les modèles de réseaux de neurones , la carte d'auto-organisation (SOM) et la théorie de la résonance adaptative (ART) sont couramment utilisées dans les algorithmes d'apprentissage non supervisé. Le SOM est une organisation topographique dans laquelle les emplacements proches sur la carte représentent des entrées avec des propriétés similaires. Le modèle ART permet au nombre de clusters de varier avec la taille du problème et permet à l'utilisateur de contrôler le degré de similarité entre les membres des mêmes clusters au moyen d'une constante définie par l'utilisateur appelée paramètre de vigilance. Les réseaux ART sont utilisés pour de nombreuses tâches de reconnaissance de formes, telles que la reconnaissance automatique de cibles et le traitement des signaux sismiques. [dix]

Voir aussi


Références

  1. ^ Hinton, Geoffrey; Sejnowski, Terrence (1999). Apprentissage non supervisé : fondements du calcul neuronal . Presse MIT. ISBN 978-0262581684.
  2. ^ Romain, Victor (2019-04-21). « Apprentissage automatique non supervisé : analyse de clusters » . Moyen . Récupéré le 01/10/2019 .
  3. ^ Jordanie, Michael I.; Évêque, Christopher M. (2004). "Les réseaux de neurones". Dans Allen B. Tucker (éd.). Manuel d'informatique, deuxième édition (Section VII : Systèmes intelligents) . Boca Raton, Floride : Chapman & Hall/CRC Press LLC. ISBN 1-58488-360-X.
  4. ^ Hastie, Trevor, Robert Tibshirani, Friedman, Jérôme (2009). Les éléments de l'apprentissage statistique : exploration de données, inférence et prédiction . New York : Springer. p. 485-586. ISBN 978-0-387-84857-0.CS1 maint: multiple names: authors list (link)
  5. ^ Garbade, Dr Michael J. (2018-09-12). « Comprendre le clustering K-means dans l'apprentissage automatique » . Moyen . Récupéré le 2019-10-31 .
  6. ^ A b c Anandkumar, Animashree; Gé, Rong ; Hsu, Daniel ; Kakade, Sham ; Telgarsky, Matus (2014). « Décompositions tensorielles pour l'apprentissage des modèles de variables latentes » (PDF) . Journal de recherche en apprentissage automatique . 15 : 2773-2832. arXiv : 1210.7559 . Code bibliographique : 2012arXiv1210.7559A .
  7. ^ Hinton, G (2010-08-02). « Un guide pratique de la formation des machines Boltzmann restreintes ».
  8. ^ Buhmann, J.; Kuhnel, H. (1992). « Regroupement de données non supervisé et supervisé avec des réseaux de neurones compétitifs ». [Actes 1992] IJCNN International Joint Conference on Neural Networks . 4 . IEEE. p. 796–801. doi : 10.1109/ijcnn.1992.227220 . ISBN 0780305590. S2CID  62651220 .
  9. ^ Comesaña-Campos, Alberto; Bouza-Rodriguez, José Benito (juin 2016). "Une application de l'apprentissage Hebbian dans la prise de décision du processus de conception" . Journal de fabrication intelligente . 27 (3) : 487-506. doi : 10.1007/s10845-014-0881-z . ISSN 0956-5515 . S2CID 207171436 .  
  10. ^ Charpentier, GA & Grossberg, S. (1988). « L'ART de la reconnaissance de formes adaptative par un réseau de neurones auto-organisé » (PDF) . Ordinateur . 21 (3) : 77-88. doi : 10.1109/2.33 . S2CID 14625094 .  

Lectures complémentaires