Apprentissage non supervisé

L'apprentissage non supervisé est une méthode d' apprentissage automatique dans laquelle, contrairement à l'apprentissage supervisé , les algorithmes apprennent des modèles exclusivement à partir de données non étiquetées. L’espoir est que grâce au mimétisme, qui est un mode d’apprentissage important chez les humains, la machine soit obligée de construire une représentation concise de son monde et d’en tirer ensuite un contenu imaginatif.

D'autres méthodes dans le spectre de la supervision sont l'apprentissage par renforcement où la machine reçoit uniquement un score de performance numérique à titre indicatif, et la supervision faible ou semi où une petite partie des données est étiquetée, et l'autosupervision .

Les réseaux de neurones

Tâches vs méthodes

Tendance pour une tâche à utiliser des méthodes supervisées ou non supervisées. Les noms de tâches chevauchant les limites du cercle sont intentionnels. Il montre que la division classique des tâches imaginatives (à gauche) employant des méthodes non supervisées est floue dans les schémas d'apprentissage actuels.

Les tâches des réseaux neuronaux sont souvent classées comme discriminatives (reconnaissance) ou génératives (imagination). Souvent mais pas toujours, les tâches discriminantes utilisent des méthodes supervisées et les tâches génératives utilisent des méthodes non supervisées (voir diagramme de Venn ) ; cependant, la séparation est très floue. Par exemple, la reconnaissance d’objets favorise l’apprentissage supervisé mais l’apprentissage non supervisé peut également regrouper les objets en groupes. De plus, à mesure que les progrès progressent, certaines tâches emploient les deux méthodes, et certaines tâches passent de l'une à l'autre. Par exemple, la reconnaissance d'images a commencé comme fortement supervisée, mais est devenue hybride en employant une pré-formation non supervisée, puis a de nouveau évolué vers la supervision avec l'avènement de l'abandon scolaire , du ReLU et des taux d'apprentissage adaptatifs .

Entraînement

Pendant la phase d'apprentissage, un réseau non supervisé tente d'imiter les données qui lui sont fournies et utilise l'erreur dans sa sortie imitée pour se corriger (c'est-à-dire corriger ses poids et ses biais). Parfois, l’erreur est exprimée par une faible probabilité qu’une sortie erronée se produise, ou elle peut être exprimée par un état instable à haute énergie dans le réseau.

Contrairement à l'utilisation dominante de la rétropropagation par les méthodes supervisées , l'apprentissage non supervisé utilise également d'autres méthodes, notamment : la règle d'apprentissage de Hopfield, la règle d'apprentissage de Boltzmann, la divergence contrastée , le sommeil de réveil , l'inférence variationnelle , le maximum de vraisemblance , le maximum a posteriori , l'échantillonnage de Gibbs et les erreurs de reconstruction par rétropropagation. ou des reparamétrages d'état cachés. Voir le tableau ci-dessous pour plus de détails.

Énergie

Une fonction énergétique est une mesure macroscopique de l’état d’activation d’un réseau. Dans les machines Boltzmann, elle joue le rôle de fonction Coût. Cette analogie avec la physique s'inspire de l'analyse par Ludwig Boltzmann de l'énergie macroscopique d'un gaz à partir des probabilités microscopiques du mouvement des particules , où k est la constante de Boltzmann et T la température. Dans le réseau RBM , la relation est , [1]et varient selon chaque modèle d'activation possible et . Pour être plus précis, est un modèle d'activation de tous les neurones (visibles et cachés). Par conséquent, certains des premiers réseaux de neurones portent le nom de Boltzmann Machine. Paul Smolensky appelle l' Harmonie . Un réseau recherche une faible énergie qui est une haute harmonie.

Réseaux

Ce tableau présente des schémas de connexion de différents réseaux non supervisés dont le détail sera donné dans la section Comparaison des réseaux. Les cercles sont des neurones et les bords entre eux sont des poids de connexion. À mesure que la conception du réseau change, des fonctionnalités sont ajoutées pour activer de nouvelles capacités ou supprimées pour accélérer l'apprentissage. Par exemple, les neurones passent de déterministes (Hopfield) à stochastiques (Boltzmann) pour permettre une sortie robuste, les poids sont supprimés au sein d'une couche (RBM) pour accélérer l'apprentissage, ou les connexions peuvent devenir asymétriques (Helmholtz).

Hopfield Boltzmann GAR Boltzmann empilé
Un réseau basé sur des domaines magnétiques en fer avec une seule couche auto-connectée. Il peut être utilisé comme mémoire adressable par le contenu.
Le réseau est séparé en 2 couches (cachées ou visibles), mais toujours en utilisant des pondérations bidirectionnelles symétriques. Suivant la thermodynamique de Boltzmann, les probabilités individuelles donnent naissance à des énergies macroscopiques.
Machine Boltzmann restreinte. Il s'agit d'une machine Boltzmann où les connexions latérales au sein d'une couche sont interdites pour rendre l'analyse réalisable.
Ce réseau dispose de plusieurs RBM pour coder une hiérarchie de fonctionnalités cachées. Une fois qu'un seul RBM est formé, une autre couche cachée bleue (voir RBM à gauche) est ajoutée et les 2 couches supérieures sont formées comme un RBM rouge et bleu. Ainsi, les couches intermédiaires d'un RBM agissent comme cachées ou visibles, selon la phase de formation dans laquelle elles se trouvent.
Helmholtz Encodeur automatique VAE
Au lieu de la connexion symétrique bidirectionnelle des machines Boltzmann empilées, nous disposons de connexions unidirectionnelles séparées pour former une boucle. Cela fait à la fois génération et discrimination.
Un réseau feed forward qui vise à trouver une bonne représentation de couche intermédiaire de son monde d’entrée. Ce réseau est déterministe, il n'est donc pas aussi robuste que son successeur la VAE.
Applique l'inférence variationnelle à l'auto-encodeur. La couche intermédiaire est un ensemble de moyennes et de variances pour les distributions gaussiennes. La nature stochastique permet une imagination plus robuste que l'auto-encodeur déterministe.

Parmi les réseaux portant des noms de personnes, seul Hopfield travaillait directement avec des réseaux de neurones. Boltzmann et Helmholtz ont précédé les réseaux de neurones artificiels, mais leurs travaux en physique et en physiologie ont inspiré les méthodes analytiques utilisées.

Histoire

1969 Les perceptrons de Minsky & Papert montrent qu'un perceptron sans couches cachées échoue sur XOR
années 1970 (dates approximatives) Premier hiver de l'IA
1974 Modèle magnétique d'Ising proposé par WA Little  [de] pour la cognition
1980 Fukushima introduit le néocognitron , appelé plus tard réseau neuronal convolutif . Il est principalement utilisé en SL, mais mérite une mention ici.
1982 Variante d'Ising Hopfield net décrite comme CAM et classificateurs par John Hopfield.
1983 Variante d'Ising Machine Boltzmann avec neurones probabilistes décrite par Hinton & Sejnowski à la suite des travaux de Sherington & Kirkpatrick de 1975.
1986 Paul Smolensky publie Harmony Theory, qui est un RBM avec pratiquement la même fonction énergétique de Boltzmann. Smolensky n'a pas dispensé de programme de formation pratique. Hinton l’a fait au milieu des années 2000.
1995 Schmidthuber présente le neurone LSTM pour les langues.
1995 Dayan & Hinton présente la machine Helmholtz
1995-2005 (dates approximatives) Deuxième hiver de l'IA
2013 Kingma, Rezende, & co. introduit les auto-encodeurs variationnels en tant que réseau de probabilité graphique bayésien, avec des réseaux neuronaux comme composants.

Réseaux spécifiques

Nous mettons ici en évidence certaines caractéristiques de certains réseaux. Les détails de chacun sont donnés dans le tableau comparatif ci-dessous.

Réseau Hopfield
Le ferromagnétisme a inspiré les réseaux de Hopfield. Un neurone correspond à un domaine de fer avec des moments magnétiques binaires Up et Down, et les connexions neuronales correspondent à l'influence des domaines les uns sur les autres. Les connexions symétriques permettent une formulation énergétique globale. Pendant l'inférence, le réseau met à jour chaque état à l'aide de la fonction d'étape d'activation standard. Des poids symétriques et des fonctions énergétiques appropriées garantissent la convergence vers un modèle d'activation stable. Les pondérations asymétriques sont difficiles à analyser. Les réseaux Hopfield sont utilisés comme mémoires adressables par contenu (CAM).
Machine Boltzmann
Ce sont des réseaux de Hopfield stochastiques. Leur valeur d'état est échantillonnée à partir de cette pdf comme suit : supposons qu'un neurone binaire se déclenche avec la probabilité de Bernoulli p(1) = 1/3 et se repose avec p(0) = 2/3. On en échantillonne en prenant un nombre aléatoire y uniformément distribué et en le branchant sur la fonction de distribution cumulative inversée , qui dans ce cas est la fonction échelon seuillée à 2/3. La fonction inverse = { 0 si x <= 2/3, 1 si x > 2/3 }.
Filet de croyance sigmoïde
Introduit par Radford Neal en 1992, ce réseau applique les idées des modèles graphiques probabilistes aux réseaux de neurones. Une différence clé est que les nœuds des modèles graphiques ont des significations prédéfinies, alors que les caractéristiques des neurones de Belief Net sont déterminées après l'entraînement. Le réseau est un graphe acyclique dirigé peu connecté composé de neurones stochastiques binaires. La règle d'apprentissage provient du maximum de vraisemblance sur p(X) : Δw ij s j * (s i - p i ), où p i = 1 / ( 1 + e entrées pondérées dans le neurone i ). Les s j sont des activations provenant d'un échantillon non biaisé de la distribution postérieure et cela pose problème en raison du problème Explaining Away soulevé par Judea Perl. Les méthodes bayésiennes variationnelles utilisent un postérieur de substitution et ignorent ouvertement cette complexité.
Réseau de croyance profonde
Introduit par Hinton, ce réseau est un hybride de RBM et de Sigmoid Belief Network. Les 2 couches supérieures sont un RBM et la deuxième couche vers le bas forme un réseau de croyances sigmoïde. On l'entraîne par la méthode RBM empilé , puis on jette les poids de reconnaissance en dessous du RBM supérieur. Depuis 2009, 3 à 4 couches semblent être la profondeur optimale. [2]
Machine de Helmholtz
Ce sont les premières inspirations des encodeurs automatiques variationnels. Ses 2 réseaux combinés en un seul : les poids avant opèrent la reconnaissance et les poids arrière mettent en œuvre l'imagination. C'est peut-être le premier réseau à faire les deux. Helmholtz n'a pas travaillé dans le domaine de l'apprentissage automatique, mais il a inspiré l'idée d'un « moteur d'inférence statistique dont la fonction est de déduire les causes probables des entrées sensorielles ». [3] le neurone binaire stochastique génère une probabilité que son état soit 0 ou 1. L'entrée de données n'est normalement pas considérée comme une couche, mais dans le mode de génération de machine de Helmholtz, la couche de données reçoit les entrées de la couche intermédiaire et a des poids séparés pour cet objectif, il est donc considéré comme une couche. Ce réseau comporte donc 3 couches.
Encodeur automatique variationnel
Ceux-ci s'inspirent des machines de Helmholtz et combinent un réseau de probabilités avec des réseaux de neurones. Un autoencodeur est un réseau CAM à 3 couches, où la couche intermédiaire est censée être une représentation interne des modèles d'entrée. Le réseau neuronal du codeur est une distribution de probabilité q φ (z étant donné x) et le réseau de décodeur est p θ (x étant donné z). Les poids sont nommés phi et thêta plutôt que W et V comme dans Helmholtz – une différence cosmétique. Ces 2 réseaux peuvent ici être entièrement connectés, ou utiliser un autre schéma NN.

Comparaison des réseaux

Hopfield Boltzmann GAR RBM empilé Helmholtz Encodeur automatique VAE
Utilisation et notables CAM, problème de voyageur de commerce CAME. La liberté des connexions rend ce réseau difficile à analyser. la reconnaissance de formes. utilisé dans les chiffres et la parole du MNIST. reconnaissance et imagination. formés avec une pré-formation non supervisée et/ou un réglage fin supervisé. imagination, mimétisme langue : écriture créative, traduction. vision : améliorer les images floues générer des données réalistes
Neurone état binaire déterministe. Activation = { 0 (ou -1) si x est négatif, 1 sinon } Neurone de Hopfield binaire stochastique ← pareil. (étendu à la valeur réelle au milieu des années 2000) ← pareil ← pareil langue : LSTM. vision : champs récepteurs locaux. activation relu généralement à valeur réelle. les neurones de la couche intermédiaire codent les moyennes et les variances pour les gaussiennes. En mode exécution (inférence), la sortie de la couche intermédiaire sont des valeurs échantillonnées des gaussiennes.
Connexions 1 couche avec poids symétriques. Aucune auto-connexion. 2 couches. 1-caché et 1-visible. poids symétriques. ← pareil.
pas de connexions latérales au sein d’une couche.
la couche supérieure n'est pas orientée, symétrique. les autres couches sont bidirectionnelles et asymétriques. 3 couches : poids asymétriques. 2 réseaux réunis en 1. 3 couches. L’entrée est considérée comme une couche même si elle n’a pas de pondération entrante. couches récurrentes pour la PNL. convolutions feedforward pour la vision. l'entrée et la sortie ont le même nombre de neurones. 3 couches : entrée, encodeur, décodeur d'échantillonneur de distribution. l'échantillonneur n'est pas considéré comme une couche
Inférence et énergie L'énergie est donnée par la mesure de probabilité de Gibbs : ← pareil ← pareil minimiser la divergence KL l’inférence n’est qu’un feed-forward. Les réseaux UL précédents fonctionnaient en avant ET en arrière minimiser l'erreur = erreur de reconstruction - KLD
Entraînement Δw ij = s i *s j , pour +1/-1 neurone Δw ij = e*(p ij - p' ij ). Ceci est dérivé de la minimisation de KLD. e = taux d'apprentissage, p' = prédit et p = distribution réelle. Δw ij = e*( < v i h j > data - < v i h j > équilibre ). Il s'agit d'une forme de divergence contrastive avec Gibbs Sampling. "<>" sont des attentes. ← similaire. entraînez-vous 1 couche à la fois. état d'équilibre approximatif avec une passe en 3 segments. pas de rétro-propagation. entraînement veille-sommeil en 2 phases propager en arrière l'erreur de reconstruction reparamétrer l'état caché pour backprop
Force ressemble à des systèmes physiques donc il hérite de leurs équations ← pareil. les neurones cachés agissent comme une représentation interne du monde extérieur programme de formation plus rapide et plus pratique que les machines Boltzmann s'entraîne rapidement. donne une couche hiérarchique de fonctionnalités légèrement anatomique. analysable avec théorie de l'information et mécanique statistique
Faiblesse difficile à entraîner en raison des connexions latérales l'équilibre nécessite trop d'itérations les neurones entiers et à valeur réelle sont plus compliqués.

Apprentissage hébbien, ART, SOM

L'exemple classique d'apprentissage non supervisé dans l'étude des réseaux neuronaux est le principe de Donald Hebb , c'est-à-dire que les neurones qui s'activent ensemble se connectent. [4] Dans l'apprentissage hebbien , la connexion est renforcée indépendamment d'une erreur, mais est exclusivement fonction de la coïncidence des potentiels d'action entre les deux neurones. [5] Une version similaire qui modifie les poids synaptiques prend en compte le temps entre les potentiels d'action ( plasticité dépendant du moment des pointes ou STDP). On a émis l’hypothèse que l’apprentissage hebbien est à la base d’une gamme de fonctions cognitives, telles que la reconnaissance de formes et l’apprentissage expérientiel.

Parmi les modèles de réseaux neuronaux , la carte auto-organisatrice (SOM) et la théorie de la résonance adaptative (ART) sont couramment utilisées dans les algorithmes d'apprentissage non supervisés. Le SOM est une organisation topographique dans laquelle les emplacements proches sur la carte représentent des entrées ayant des propriétés similaires. Le modèle ART permet au nombre de clusters de varier en fonction de la taille du problème et permet à l'utilisateur de contrôler le degré de similarité entre les membres des mêmes clusters au moyen d'une constante définie par l'utilisateur appelée paramètre de vigilance. Les réseaux ART sont utilisés pour de nombreuses tâches de reconnaissance de formes, telles que la reconnaissance automatique de cibles et le traitement des signaux sismiques. [6]

Méthodes probabilistes

Deux des principales méthodes utilisées dans l'apprentissage non supervisé sont l' analyse en composantes principales et l'analyse groupée . L'analyse clusterisée est utilisée dans l'apprentissage non supervisé pour regrouper ou segmenter des ensembles de données avec des attributs partagés afin d'extrapoler des relations algorithmiques. [7] L'analyse clusterisée est une branche de l'apprentissage automatique qui regroupe les données qui n'ont pas été étiquetées , classées ou catégorisées. Au lieu de répondre aux commentaires, l'analyse groupée identifie les points communs dans les données et réagit en fonction de la présence ou de l'absence de ces points communs dans chaque nouvel élément de données. Cette approche permet de détecter les points de données anormaux qui ne correspondent à aucun des deux groupes.

Une application centrale de l'apprentissage non supervisé se trouve dans le domaine de l'estimation de la densité en statistique , [8] bien que l'apprentissage non supervisé englobe de nombreux autres domaines impliquant la synthèse et l'explication des caractéristiques des données. Il peut être comparé à l'apprentissage supervisé en disant que si l'apprentissage supervisé vise à déduire une distribution de probabilité conditionnelle conditionnée par l'étiquette des données d'entrée ; l'apprentissage non supervisé vise à déduire une distribution de probabilité a priori .

Approches

Certains des algorithmes les plus couramment utilisés dans l'apprentissage non supervisé comprennent : (1) le clustering, (2) la détection d'anomalies, (3) les approches d'apprentissage de modèles à variables latentes. Chaque approche utilise plusieurs méthodes comme suit :

Méthode des moments

L'une des approches statistiques pour l'apprentissage non supervisé est la méthode des moments . Dans la méthode des moments, les paramètres inconnus (d'intérêt) dans le modèle sont liés aux moments d'une ou plusieurs variables aléatoires, et ainsi, ces paramètres inconnus peuvent être estimés compte tenu des moments. Les moments sont généralement estimés empiriquement à partir d’échantillons. Les moments de base sont les moments du premier et du deuxième ordre. Pour un vecteur aléatoire, le moment du premier ordre est le vecteur moyen et le moment du deuxième ordre est la matrice de covariance (lorsque la moyenne est nulle). Les moments d'ordre supérieur sont généralement représentés à l'aide de tenseurs qui sont la généralisation de matrices à des ordres supérieurs sous forme de tableaux multidimensionnels.

En particulier, la méthode des moments s'avère efficace pour apprendre les paramètres des modèles à variables latentes . Les modèles à variables latentes sont des modèles statistiques dans lesquels, en plus des variables observées, il existe également un ensemble de variables latentes qui ne sont pas observées. Un exemple très pratique de modèles de variables latentes dans l'apprentissage automatique est la modélisation thématique qui est un modèle statistique permettant de générer les mots (variables observées) dans le document en fonction du sujet (variable latente) du document. Dans la modélisation thématique, les mots du document sont générés en fonction de différents paramètres statistiques lorsque le sujet du document est modifié. Il est montré que la méthode des moments (techniques de décomposition tensorielle) récupère systématiquement les paramètres d'une large classe de modèles à variables latentes sous certaines hypothèses. [11]

L' algorithme d'espérance-maximisation (EM) est également l'une des méthodes les plus pratiques pour apprendre des modèles à variables latentes. Cependant, il peut rester bloqué dans des optima locaux et il n’est pas garanti que l’algorithme convergera vers les véritables paramètres inconnus du modèle. En revanche, pour la méthode des moments, la convergence globale est garantie sous certaines conditions.

Voir également

Les références

  1. ^ Hinton, G. (2012). "Un guide pratique pour la formation des machines Boltzmann restreintes" (PDF) . Réseaux de neurones : les astuces du métier . Notes de cours en informatique. Vol. 7700. Springer. pp. 599-619. est ce que je :10.1007/978-3-642-35289-8_32. ISBN 978-3-642-35289-8.
  2. ^ Hinton, Geoffrey (septembre 2009). "Deep Belief Nets" (vidéo).
  3. ^ Pierre, Dayan ; Hinton, Geoffrey E. ; Neal, Radford M. ; Zemel, Richard S. (1995). "La machine Helmholtz". Calcul neuronal . 7 (5) : 889-904. est ce que je :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID  7584891. S2CID  1890561. Icône d'accès fermé
  4. ^ Buhmann, J. ; Kuhnel, H. (1992). "Regroupement de données non supervisé et supervisé avec des réseaux de neurones compétitifs". [Actes 1992] Conférence conjointe internationale IJCNN sur les réseaux de neurones . Vol. 4. IEEE. pp. 796-801. est ce que je :10.1109/ijcnn.1992.227220. ISBN 0780305590. S2CID62651220  .
  5. ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (juin 2016). "Une application de l'apprentissage hébbien dans la prise de décision du processus de conception". Journal de la fabrication intelligente . 27 (3) : 487-506. est ce que je :10.1007/s10845-014-0881-z. ISSN0956-5515  . S2CID207171436  .
  6. ^ Carpenter, GA et Grossberg, S. (1988). "L'ART de la reconnaissance adaptative des formes par un réseau neuronal auto-organisé" (PDF) . Ordinateur . 21 (3) : 77-88. est ce que je :10.1109/2.33. S2CID  14625094. Archivé de l'original (PDF) le 16/05/2018 . Récupéré le 16/09/2013 .
  7. ^ Romain, Victor (2019-04-21). "Apprentissage automatique non supervisé : analyse de clustering". Moyen . Récupéré le 01/10/2019 .
  8. ^ Jordanie, Michael I. ; Évêque, Christopher M. (2004). "7. Systèmes intelligents §Réseaux de neurones". Dans Tucker, Allen B. (éd.). Manuel d'informatique (2e éd.). Chapman & Hall/CRC Press. est ce que je :10.1201/9780203494455. ISBN 1-58488-360-X.
  9. ^ Hastie, Tibshirani et Friedman 2009, pp. 485-586
  10. ^ Garbade, Dr Michael J. (2018-09-12). "Comprendre le clustering K-means dans l'apprentissage automatique". Moyen . Récupéré le 31/10/2019 .
  11. ^ Anandkumar, Animashree ; Ge, Rong ; Hsu, Daniel ; Kakade, Sham ; Telgarsky, Matus (2014). "Décompositions tensorielles pour l'apprentissage de modèles de variables latentes" (PDF) . Journal de recherche sur l'apprentissage automatique . 15 : 2773-2832. arXiv : 1210.7559 . Code bibliographique :2012arXiv1210.7559A.

Lectures complémentaires

Retrieved from "https://en.wikipedia.org/w/index.php?title=Unsupervised_learning&oldid=1210928182"