Apprentissage non supervisé

L'apprentissage non supervisé est un cadre d' apprentissage automatique dans lequel, contrairement à l'apprentissage supervisé , les algorithmes apprennent des modèles exclusivement à partir de données non étiquetées. [1] D'autres cadres dans le spectre des supervisions incluent la supervision faible ou semi-supervision , où une petite partie des données est étiquetée, et l'auto-supervision . Certains chercheurs considèrent l'apprentissage auto-supervisé comme une forme d'apprentissage non supervisé. [2]

D'un point de vue conceptuel, l'apprentissage non supervisé se divise en aspects de données, de formation, d'algorithme et d'applications en aval. En général, l'ensemble de données est récolté à moindre coût « dans la nature », comme un corpus de texte massif obtenu par crawling Web , avec seulement un filtrage mineur (comme Common Crawl ). Cela se compare favorablement à l'apprentissage supervisé, où l'ensemble de données (comme ImageNet1000 ) est généralement construit manuellement, ce qui est beaucoup plus coûteux.

Il existe des algorithmes conçus spécifiquement pour l'apprentissage non supervisé, tels que les algorithmes de clustering comme k-means , les techniques de réduction de dimensionnalité comme l'analyse en composantes principales (PCA) , l'apprentissage automatique de Boltzmann et les autoencodeurs . Après l'essor de l'apprentissage profond, la plupart des apprentissages non supervisés à grande échelle ont été réalisés en entraînant des architectures de réseaux neuronaux à usage général par descente de gradient , adaptées à l'exécution d'un apprentissage non supervisé en concevant une procédure d'entraînement appropriée.

Parfois, un modèle entraîné peut être utilisé tel quel, mais le plus souvent, il est modifié pour des applications en aval. Par exemple, la méthode de pré-entraînement génératif entraîne un modèle à générer un ensemble de données textuelles, avant de l'affiner pour d'autres applications, telles que la classification de texte. [3] [4] Autre exemple, les autoencodeurs sont entraînés à de bonnes caractéristiques , qui peuvent ensuite être utilisées comme module pour d'autres modèles, comme dans un modèle de diffusion latente .

Tâches

Tendance d'une tâche à utiliser des méthodes supervisées ou non supervisées. Les noms de tâches chevauchant les limites du cercle sont intentionnels. Cela montre que la division classique des tâches imaginatives (à gauche) utilisant des méthodes non supervisées est floue dans les schémas d'apprentissage actuels.

Les tâches sont souvent classées comme discriminatives (reconnaissance) ou génératives (imagination). Souvent, mais pas toujours, les tâches discriminatives utilisent des méthodes supervisées et les tâches génératives utilisent des méthodes non supervisées (voir diagramme de Venn ) ; cependant, la séparation est très floue. Par exemple, la reconnaissance d'objets favorise l'apprentissage supervisé, mais l'apprentissage non supervisé peut également regrouper les objets en groupes. De plus, au fur et à mesure que la progression progresse, certaines tâches utilisent les deux méthodes, et certaines tâches passent de l'une à l'autre. Par exemple, la reconnaissance d'images a commencé comme étant fortement supervisée, mais est devenue hybride en utilisant une pré-formation non supervisée, puis est passée à nouveau à la supervision avec l'avènement des taux d' abandon , de ReLU et d'apprentissage adaptatif .

Une tâche générative typique est la suivante. À chaque étape, un point de données est échantillonné à partir de l'ensemble de données, une partie des données est supprimée et le modèle doit déduire la partie supprimée. Cela est particulièrement clair pour les autoencodeurs de débruitage et BERT .

Architectures de réseaux neuronaux

Entraînement

Pendant la phase d'apprentissage, un réseau non supervisé tente d'imiter les données qui lui sont fournies et utilise l'erreur dans sa sortie imitée pour se corriger (c'est-à-dire corriger ses poids et ses biais). Parfois, l'erreur est exprimée comme une faible probabilité que la sortie erronée se produise, ou elle peut être exprimée comme un état instable à haute énergie dans le réseau.

Contrairement à l'utilisation dominante de la rétropropagation par les méthodes supervisées , l'apprentissage non supervisé utilise également d'autres méthodes, notamment : la règle d'apprentissage de Hopfield, la règle d'apprentissage de Boltzmann, la divergence contrastive , l'état de veille , l'inférence variationnelle , le maximum de vraisemblance , le maximum a posteriori , l'échantillonnage de Gibbs et la rétropropagation des erreurs de reconstruction ou des reparamétrisations d'état caché. Voir le tableau ci-dessous pour plus de détails.

Énergie

Une fonction d'énergie est une mesure macroscopique de l'état d'activation d'un réseau. Dans les machines de Boltzmann, elle joue le rôle de fonction de coût. Cette analogie avec la physique s'inspire de l'analyse de Ludwig Boltzmann de l'énergie macroscopique d'un gaz à partir des probabilités microscopiques de mouvement des particules , où k est la constante de Boltzmann et T la température. Dans le réseau RBM, la relation est , [5]et varient sur chaque modèle d'activation possible et . Pour être plus précis, , où est un modèle d'activation de tous les neurones (visibles et cachés). Ainsi, certains des premiers réseaux neuronaux portent le nom de machine de Boltzmann. Paul Smolensky appelle l' Harmonie . Un réseau recherche une faible énergie qui est une Harmonie élevée.

Réseaux

Ce tableau montre les diagrammes de connexion de divers réseaux non supervisés, dont les détails seront donnés dans la section Comparaison des réseaux. Les cercles sont des neurones et les arêtes entre eux sont des poids de connexion. Au fur et à mesure que la conception du réseau évolue, des fonctionnalités sont ajoutées pour permettre de nouvelles capacités ou supprimées pour accélérer l'apprentissage. Par exemple, les neurones passent du déterministe (Hopfield) au stochastique (Boltzmann) pour permettre une sortie robuste, les poids sont supprimés au sein d'une couche (RBM) pour accélérer l'apprentissage, ou les connexions peuvent devenir asymétriques (Helmholtz).

Hopfield Boltzmann RBM Boltzmann empilé
Un réseau basé sur des domaines magnétiques en fer avec une seule couche auto-connectée. Il peut être utilisé comme mémoire adressable par contenu.
Le réseau est séparé en 2 couches (cachées et visibles), mais utilise toujours des pondérations symétriques à 2 voies. Suivant la thermodynamique de Boltzmann, les probabilités individuelles donnent lieu à des énergies macroscopiques.
Machine de Boltzmann restreinte. Il s'agit d'une machine de Boltzmann dans laquelle les connexions latérales au sein d'une couche sont interdites pour rendre l'analyse traitable.
Ce réseau possède plusieurs RBM pour encoder une hiérarchie de fonctionnalités cachées. Après l'entraînement d'un seul RBM, une autre couche cachée bleue (voir RBM de gauche) est ajoutée et les 2 couches supérieures sont entraînées en tant que RBM rouge et bleu. Ainsi, les couches intermédiaires d'un RBM agissent comme cachées ou visibles, selon la phase d'entraînement dans laquelle il se trouve.
Helmholtz Autoencodeur VAE
Au lieu de la connexion symétrique bidirectionnelle des machines de Boltzmann empilées, nous avons des connexions unidirectionnelles séparées pour former une boucle. Elle effectue à la fois la génération et la discrimination.
Un réseau à propagation avant qui vise à trouver une bonne représentation de la couche intermédiaire de son monde d'entrée. Ce réseau est déterministe, il n'est donc pas aussi robuste que son successeur le VAE.
Applique l'inférence variationnelle à l'autoencodeur. La couche intermédiaire est un ensemble de moyennes et de variances pour les distributions gaussiennes. La nature stochastique permet une imagination plus robuste que l'autoencodeur déterministe.

Parmi les réseaux portant des noms de personnes, seul Hopfield a travaillé directement avec des réseaux neuronaux. Boltzmann et Helmholtz ont précédé les réseaux neuronaux artificiels, mais leurs travaux en physique et en physiologie ont inspiré les méthodes analytiques qui ont été utilisées.

Histoire

1974 Modèle magnétique d'Ising proposé par WA Little  [de] pour la cognition
1980 Fukushima introduit le néocognitron , qui sera plus tard appelé réseau neuronal convolutionnel . Il est principalement utilisé dans SL, mais mérite d'être mentionné ici.
1982 Réseau de Hopfield variante d'Ising décrit comme des CAM et des classificateurs par John Hopfield.
1983 Machine de Boltzmann variante d'Ising avec neurones probabilistes décrite par Hinton et Sejnowski suite aux travaux de Sherington et Kirkpatrick de 1975.
1986 Paul Smolensky publie Harmony Theory, qui est un RBM avec pratiquement la même fonction d'énergie de Boltzmann. Smolensky n'a pas donné de programme de formation pratique. Hinton l'a fait au milieu des années 2000.
1995 Schmidthuber présente le neurone LSTM pour les langues.
1995 Dayan & Hinton présente la machine Helmholtz
2013 Kingma, Rezende et co. ont présenté les autoencodeurs variationnels comme un réseau de probabilité graphique bayésien, avec des réseaux neuronaux comme composants.

Réseaux spécifiques

Nous mettons ici en évidence certaines caractéristiques de certains réseaux. Les détails de chacun sont donnés dans le tableau comparatif ci-dessous.

Réseau Hopfield
Les réseaux Hopfield inspirés du ferromagnétisme. Un neurone correspond à un domaine de fer avec des moments magnétiques binaires Up et Down, et les connexions neuronales correspondent à l'influence des domaines les uns sur les autres. Les connexions symétriques permettent une formulation énergétique globale. Pendant l'inférence, le réseau met à jour chaque état en utilisant la fonction d'étape d'activation standard. Les poids symétriques et les bonnes fonctions énergétiques garantissent la convergence vers un modèle d'activation stable. Les poids asymétriques sont difficiles à analyser. Les réseaux Hopfield sont utilisés comme mémoires adressables par contenu (CAM).
Machine de Boltzmann
Il s'agit de réseaux Hopfield stochastiques. Leur valeur d'état est échantillonnée à partir de ce PDF comme suit : supposons qu'un neurone binaire s'active avec la probabilité de Bernoulli p(1) = 1/3 et repose avec p(0) = 2/3. On l'échantillonne en prenant un nombre aléatoire uniformément distribué y et en l'insérant dans la fonction de distribution cumulative inversée , qui dans ce cas est la fonction en escalier avec un seuil à 2/3. La fonction inverse = { 0 si x <= 2/3, 1 si x > 2/3 }.
Réseau de croyances sigmoïdes
Introduit par Radford Neal en 1992, ce réseau applique les idées des modèles graphiques probabilistes aux réseaux neuronaux. Une différence clé est que les nœuds des modèles graphiques ont des significations pré-assignées, tandis que les caractéristiques des neurones du réseau de croyances sont déterminées après l'entraînement. Le réseau est un graphe acyclique orienté peu connecté composé de neurones stochastiques binaires. La règle d'apprentissage provient du maximum de vraisemblance sur p(X) : Δw ij s j * (s i - p i ), où p i = 1 / ( 1 + e entrées pondérées dans le neurone i ). Les s j sont des activations à partir d'un échantillon non biaisé de la distribution postérieure et cela est problématique en raison du problème d'explication soulevé par Judea Perl. Les méthodes bayésiennes variationnelles utilisent un postérieur de substitution et ignorent de manière flagrante cette complexité.
Réseau de croyances profondes
Introduit par Hinton, ce réseau est un hybride de RBM et de réseau de croyances sigmoïdes. Les 2 couches supérieures sont un RBM et la deuxième couche inférieure forme un réseau de croyances sigmoïdes. On l'entraîne par la méthode RBM empilée , puis on jette les poids de reconnaissance en dessous du RBM supérieur. En 2009, 3 à 4 couches semblent être la profondeur optimale. [6]
Machine de Helmholtz
Ce sont les premières inspirations des encodeurs automatiques variationnels. Ses 2 réseaux combinés en un seul : les pondérations avant opèrent la reconnaissance et les pondérations arrière implémentent l'imagination. C'est peut-être le premier réseau à faire les deux. Helmholtz n'a pas travaillé dans l'apprentissage automatique, mais il a inspiré la vision d'un « moteur d'inférence statistique dont la fonction est de déduire les causes probables des entrées sensorielles ». [7] le neurone binaire stochastique génère une probabilité que son état soit 0 ou 1. L'entrée de données n'est normalement pas considérée comme une couche, mais dans le mode de génération de la machine Helmholtz, la couche de données reçoit l'entrée de la couche intermédiaire et dispose de pondérations séparées à cet effet, elle est donc considérée comme une couche. Ce réseau comporte donc 3 couches.
Autoencodeur variationnel
Ces machines sont inspirées des machines de Helmholtz et combinent un réseau de probabilités avec des réseaux neuronaux. Un autoencodeur est un réseau CAM à 3 couches, où la couche intermédiaire est censée être une représentation interne des modèles d'entrée. Le réseau neuronal de l'encodeur est une distribution de probabilité q φ (z étant donné x) et le réseau du décodeur est p θ (x étant donné z). Les poids sont nommés phi et theta plutôt que W et V comme dans Helmholtz, une différence esthétique. Ces 2 réseaux ici peuvent être entièrement connectés ou utiliser un autre schéma NN.

Comparaison des réseaux

Hopfield Boltzmann RBM RBM empilé Helmholtz Autoencodeur VAE
Utilisation et notables CAM, problème du voyageur de commerce CAM. La liberté des connexions rend ce réseau difficile à analyser. reconnaissance de formes. utilisé dans les chiffres et la parole du MNIST. Reconnaissance et imagination. Entraînement préalable non supervisé et/ou réglage fin supervisé. imagination, mimétisme langue : écriture créative, traduction. vision : amélioration des images floues générer des données réalistes
Neurone état binaire déterministe. Activation = { 0 (ou -1) si x est négatif, 1 sinon } neurone binaire stochastique de Hopfield ← idem. (étendu aux valeurs réelles au milieu des années 2000) ← même ← même langue : LSTM. vision : champs réceptifs locaux. activation relu généralement à valeur réelle. Les neurones de la couche intermédiaire codent les moyennes et les variances des gaussiennes. En mode exécution (inférence), la sortie de la couche intermédiaire est constituée de valeurs échantillonnées à partir des gaussiennes.
Relations 1 couche avec poids symétriques. Pas d'auto-connexions. 2 couches. 1 cachée et 1 visible. Poids symétriques. ← idem.
pas de connexions latérales au sein d'une couche.
la couche supérieure est non dirigée, symétrique. les autres couches sont bidirectionnelles, asymétriques. 3 couches : poids asymétriques. 2 réseaux combinés en 1. 3 couches. L'entrée est considérée comme une couche même si elle n'a pas de poids entrant. couches récurrentes pour la PNL. convolutions de feedforward pour la vision. l'entrée et la sortie ont le même nombre de neurones. 3 couches : entrée, encodeur, échantillonneur de distribution, décodeur. L'échantillonneur n'est pas considéré comme une couche
Inférence et énergie L'énergie est donnée par la mesure de probabilité de Gibbs : ← même ← même minimiser la divergence KL l'inférence n'est qu'une rétroaction. Les réseaux UL précédents fonctionnaient en avant ET en arrière minimiser l'erreur = erreur de reconstruction - KLD
Entraînement Δw ij = s i *s j , pour +1/-1 neurone Δw ij = e*(p ij - p' ij ). Ceci est dérivé de la minimisation de KLD. e = taux d'apprentissage, p' = distribution prédite et p = distribution réelle. Δw ij = e*( < v i h j > données - < v i h j > équilibre ). Il s'agit d'une forme de divergence contrastive avec échantillonnage de Gibbs. "<>" sont des attentes. ← similaire. train 1 couche à la fois. état d'équilibre approximatif avec un passage de 3 segments. pas de rétropropagation. Entraînement éveil-sommeil en 2 phases propager en arrière l'erreur de reconstruction reparamétrer l'état caché pour backprop
Force ressemble aux systèmes physiques, il hérite donc de leurs équations ← idem. les neurones cachés agissent comme une représentation interne du monde extérieur programme de formation plus rapide et plus pratique que les machines Boltzmann s'entraîne rapidement. offre une couche hiérarchique de fonctionnalités légèrement anatomique. analysable avec la théorie de l'information et la mécanique statistique
Faiblesse difficile à entraîner en raison des connexions latérales l'équilibre nécessite trop d'itérations les neurones à valeurs entières et réelles sont plus compliqués.

Apprentissage Hebbien, ART, SOM

L'exemple classique d'apprentissage non supervisé dans l'étude des réseaux neuronaux est le principe de Donald Hebb , c'est-à-dire que les neurones qui s'activent ensemble se connectent ensemble. [8] Dans l'apprentissage hebbien , la connexion est renforcée indépendamment d'une erreur, mais est exclusivement fonction de la coïncidence entre les potentiels d'action entre les deux neurones. [9] Une version similaire qui modifie les poids synaptiques prend en compte le temps entre les potentiels d'action ( plasticité dépendante du timing des pics ou STDP). On a émis l'hypothèse que l'apprentissage hebbien sous-tend une gamme de fonctions cognitives, telles que la reconnaissance de formes et l'apprentissage expérientiel.

Parmi les modèles de réseaux neuronaux , la carte auto-organisée (SOM) et la théorie de résonance adaptative (ART) sont couramment utilisées dans les algorithmes d'apprentissage non supervisés. La SOM est une organisation topographique dans laquelle les emplacements proches sur la carte représentent des entrées ayant des propriétés similaires. Le modèle ART permet de faire varier le nombre de clusters en fonction de la taille du problème et permet à l'utilisateur de contrôler le degré de similarité entre les membres des mêmes clusters au moyen d'une constante définie par l'utilisateur appelée paramètre de vigilance. Les réseaux ART sont utilisés pour de nombreuses tâches de reconnaissance de formes, telles que la reconnaissance automatique de cibles et le traitement des signaux sismiques. [10]

Méthodes probabilistes

Deux des principales méthodes utilisées dans l'apprentissage non supervisé sont l'analyse en composantes principales et l'analyse par clusters . L'analyse par clusters est utilisée dans l'apprentissage non supervisé pour regrouper ou segmenter des ensembles de données avec des attributs partagés afin d'extrapoler des relations algorithmiques. [11] L'analyse par clusters est une branche de l'apprentissage automatique qui regroupe les données qui n'ont pas été étiquetées , classées ou catégorisées. Au lieu de répondre aux commentaires, l'analyse par clusters identifie les points communs dans les données et réagit en fonction de la présence ou de l'absence de ces points communs dans chaque nouvelle donnée. Cette approche permet de détecter les points de données anormaux qui ne correspondent à aucun des deux groupes.

L'une des applications principales de l'apprentissage non supervisé est l' estimation de la densité en statistique [12], bien que l'apprentissage non supervisé englobe de nombreux autres domaines impliquant la synthèse et l'explication des caractéristiques des données. On peut le comparer à l'apprentissage supervisé en disant que, alors que l'apprentissage supervisé vise à déduire une distribution de probabilité conditionnelle conditionnée par l'étiquette des données d'entrée, l'apprentissage non supervisé vise à déduire une distribution de probabilité a priori .

Approches

Certains des algorithmes les plus courants utilisés dans l'apprentissage non supervisé comprennent : (1) le clustering, (2) la détection d'anomalies, (3) les approches d'apprentissage de modèles à variables latentes. Chaque approche utilise plusieurs méthodes comme suit :

Méthode des moments

L'une des approches statistiques de l'apprentissage non supervisé est la méthode des moments . Dans la méthode des moments, les paramètres inconnus (d'intérêt) du modèle sont liés aux moments d'une ou plusieurs variables aléatoires, et ainsi, ces paramètres inconnus peuvent être estimés en fonction des moments. Les moments sont généralement estimés à partir d'échantillons de manière empirique. Les moments de base sont les moments du premier et du second ordre. Pour un vecteur aléatoire, le moment du premier ordre est le vecteur moyen et le moment du second ordre est la matrice de covariance (lorsque la moyenne est nulle). Les moments d'ordre supérieur sont généralement représentés à l'aide de tenseurs qui sont la généralisation de matrices à des ordres supérieurs sous forme de tableaux multidimensionnels.

En particulier, la méthode des moments s'avère efficace pour apprendre les paramètres des modèles à variables latentes . Les modèles à variables latentes sont des modèles statistiques dans lesquels, en plus des variables observées, existe également un ensemble de variables latentes qui ne sont pas observées. Un exemple très pratique de modèles à variables latentes dans l'apprentissage automatique est la modélisation thématique qui est un modèle statistique permettant de générer les mots (variables observées) dans le document en fonction du sujet (variable latente) du document. Dans la modélisation thématique, les mots du document sont générés en fonction de différents paramètres statistiques lorsque le sujet du document est modifié. Il est démontré que la méthode des moments (techniques de décomposition tensorielle) récupère systématiquement les paramètres d'une grande classe de modèles à variables latentes sous certaines hypothèses. [15]

L' algorithme d'espérance-maximisation (EM) est également l'une des méthodes les plus pratiques pour l'apprentissage des modèles à variables latentes. Cependant, il peut rester bloqué dans des optima locaux et il n'est pas garanti que l'algorithme converge vers les véritables paramètres inconnus du modèle. En revanche, pour la méthode des moments, la convergence globale est garantie sous certaines conditions.

Voir aussi

Références

  1. ^ Wu, Wei. « Apprentissage non supervisé » (PDF) . Archivé (PDF) de l'original le 14 avril 2024 . Récupéré le 26 avril 2024 .
  2. ^ Liu, Xiao ; Zhang, Fanjin ; Hou, Zhenyu ; Mian, Li; Wang, Zhaoyu ; Zhang, Jing ; Tang, Jie (2021). « Apprentissage auto-supervisé : génératif ou contrastif ». Transactions IEEE sur l'ingénierie des connaissances et des données : 1. arXiv : 2006.08218 . est ce que je :10.1109/TKDE.2021.3090866. ISSN1041-4347  .
  3. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 juin 2018). « Améliorer la compréhension du langage par une pré-formation générative » (PDF) . OpenAI . p. 12. Archivé (PDF) de l'original le 26 janvier 2021 . Récupéré le 23 janvier 2021 .
  4. ^ Li, Zhuohan ; Wallace, Eric ; Shen, Sheng ; Lin, Kevin ; Keutzer, Kurt ; Klein, Dan ; Gonzalez, Joey (2020-11-21). « Entraînez-vous en grand, puis compressez : repenser la taille du modèle pour une formation et une inférence efficaces des transformateurs ». Actes de la 37e Conférence internationale sur l'apprentissage automatique . PMLR : 5958–5968.
  5. ^ Hinton, G. (2012). « Un guide pratique pour la formation de machines de Boltzmann restreintes » (PDF) . Réseaux neuronaux : astuces du métier . Notes de cours en informatique. Vol. 7700. Springer. pp. 599–619. doi :10.1007/978-3-642-35289-8_32. ISBN 978-3-642-35289-8. Archivé (PDF) de l'original le 2022-09-03 . Récupéré le 2022-11-03 .
  6. ^ « Deep Belief Nets » (vidéo). Septembre 2009. Archivé de l'original le 2022-03-08 . Récupéré le 27/03/2022 . {{cite web}}: Paramètre inconnu |people=ignoré ( aide )
  7. ^ Peter, Dayan ; Hinton, Geoffrey E. ; Neal, Radford M. ; Zemel, Richard S. (1995). "La machine de Helmholtz". Calcul neuronal . 7 (5) : 889–904. doi :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID  7584891. S2CID  1890561. Icône d'accès fermé
  8. ^ Buhmann, J.; Kuhnel, H. (1992). « Regroupement de données non supervisé et supervisé avec des réseaux neuronaux compétitifs ». [Actes 1992] Conférence internationale conjointe IJCNN sur les réseaux neuronaux . Vol. 4. IEEE. pp. 796–801. doi :10.1109/ijcnn.1992.227220. ISBN 0780305590. S2CID  62651220.
  9. ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (juin 2016). "Une application de l'apprentissage hébbien dans la prise de décision du processus de conception". Journal de la fabrication intelligente . 27 (3) : 487-506. est ce que je :10.1007/s10845-014-0881-z. ISSN0956-5515  . S2CID207171436  .
  10. ^ Carpenter, GA et Grossberg, S. (1988). « L'ART de la reconnaissance adaptative de formes par un réseau neuronal auto-organisé » (PDF) . Computer . 21 (3) : 77–88. doi :10.1109/2.33. S2CID  14625094. Archivé de l'original (PDF) le 2018-05-16 . Récupéré le 2013-09-16 .
  11. ^ Roman, Victor (2019-04-21). « Apprentissage automatique non supervisé : analyse de clustering ». Medium . Archivé de l'original le 2020-08-21 . Récupéré le 2019-10-01 .
  12. ^ Jordan, Michael I.; Bishop, Christopher M. (2004). "7. Systèmes intelligents §Réseaux neuronaux". Dans Tucker, Allen B. (éd.). Manuel de science informatique (2e éd.). Chapman & Hall/CRC Press. doi :10.1201/9780203494455. ISBN 1-58488-360-X. Archivé de l'original le 2022-11-03 . Récupéré le 2022-11-03 .
  13. ^ Hastie, Tibshirani et Friedman 2009, pp. 485–586
  14. ^ Garbade, Dr Michael J. (2018-09-12). « Comprendre le clustering K-means dans l'apprentissage automatique ». Medium . Archivé de l'original le 2019-05-28 . Récupéré le 2019-10-31 .
  15. ^ Anandkumar, Animashree ; Ge, Rong ; Hsu, Daniel ; Kakade, Sham ; Telgarsky, Matus (2014). « Décompositions tensorielles pour l'apprentissage de modèles à variables latentes » (PDF) . Journal of Machine Learning Research . 15 : 2773–2832. arXiv : 1210.7559 . Bibcode :2012arXiv1210.7559A. Archivé (PDF) de l'original le 2015-03-20 . Récupéré le 2015-04-10 .

Lectures complémentaires

Retrieved from "https://en.wikipedia.org/w/index.php?title=Unsupervised_learning&oldid=1250214854"