Aprendizagem não supervisionada

Da Wikipédia, a enciclopédia livre

O aprendizado não supervisionado é um tipo de algoritmo que aprende padrões de dados não marcados. O objetivo é que, por meio do mimetismo, que é um modo importante de aprendizado nas pessoas, a máquina seja forçada a construir uma representação concisa de seu mundo e, a partir dela, gerar conteúdo imaginativo.

Em contraste com o aprendizado supervisionado , onde os dados são marcados por um especialista, por exemplo, marcados como uma "bola" ou "peixe", os métodos não supervisionados exibem auto-organização que captura padrões como densidades de probabilidade [1] ou uma combinação de preferências de recursos neurais codificadas no pesos e ativações da máquina. Os outros níveis no espectro de supervisão são o aprendizado por reforço , no qual a máquina recebe apenas uma pontuação numérica de desempenho como orientação, e o aprendizado semissupervisionado, no qual uma pequena parte dos dados é marcada.

Redes neurais

Tarefas vs. métodos

Tendência para uma tarefa empregar métodos supervisionados versus métodos não supervisionados. Nomes de tarefas que ultrapassam os limites do círculo são intencionais. Ele mostra que a divisão clássica de tarefas imaginativas (esquerda) empregando métodos não supervisionados é borrada nos esquemas de aprendizado de hoje.

Tarefas de redes neurais são frequentemente categorizadas como discriminativas (reconhecimento) ou generativas (imaginação). Freqüentemente, mas nem sempre, as tarefas discriminativas usam métodos supervisionados e as tarefas generativas usam métodos não supervisionados (consulte o diagrama de Venn ); no entanto, a separação é muito nebulosa. Por exemplo, o reconhecimento de objetos favorece o aprendizado supervisionado, mas o aprendizado não supervisionado também pode agrupar objetos em grupos. Além disso, à medida que o progresso avança, algumas tarefas empregam ambos os métodos, e algumas tarefas oscilam de um para o outro. Por exemplo, o reconhecimento de imagem começou como altamente supervisionado, mas tornou-se híbrido ao empregar pré-treinamento não supervisionado e, em seguida, mudou-se para a supervisão novamente com o advento das taxas de abandono, relu e aprendizado adaptativo.

Treinamento

Durante a fase de aprendizado, uma rede não supervisionada tenta imitar os dados fornecidos e usa o erro em sua saída imitada para se corrigir (ou seja, corrigir seus pesos e vieses). Às vezes, o erro é expresso como uma baixa probabilidade de ocorrência da saída incorreta ou pode ser expresso como um estado instável de alta energia na rede.

Em contraste com o uso dominante de backpropagation dos métodos supervisionados , o aprendizado não supervisionado também emprega outros métodos, incluindo: regra de aprendizado de Hopfield, regra de aprendizado de Boltzmann, divergência contrastiva, sono acordado , inferência variacional, verossimilhança máxima, máximo A posteriori, amostragem de Gibbs e erros de reconstrução de retropropagação ou reparametrizações de estado oculto. Veja a tabela abaixo para mais detalhes.

Energia

Uma função de energia é uma medida macroscópica do estado de ativação de uma rede. Nas máquinas de Boltzmann, desempenha o papel da função Custo. Esta analogia com a física é inspirada na análise de Ludwig Boltzmann da energia macroscópica de um gás a partir das probabilidades microscópicas do movimento das partículas., onde k é a constante de Boltzmann e T é a temperatura. Na rede RBM a relação é, [2] ondeevariam em cada padrão de ativação possível e. Para ser mais preciso,, ondeé um padrão de ativação de todos os neurônios (visíveis e ocultos). Portanto, as primeiras redes neurais levam o nome de Máquina de Boltzmann. Paul Smolensky chamaa Harmonia . Uma rede busca baixa energia que é alta Harmonia.

Redes

Esta tabela mostra diagramas de conexão de várias redes não supervisionadas, cujos detalhes serão fornecidos na seção Comparação de redes. Círculos são neurônios e arestas entre eles são pesos de conexão. À medida que o design da rede muda, os recursos são adicionados para habilitar novos recursos ou removidos para tornar o aprendizado mais rápido. Por exemplo, os neurônios mudam entre determinísticos (Hopfield) e estocásticos (Boltzmann) para permitir uma saída robusta, os pesos são removidos dentro de uma camada (RBM) para acelerar o aprendizado ou as conexões podem se tornar assimétricas (Helmholtz).

Hopfield Boltzmann RBM Boltzmann empilhado Helmholtz Codificador automático VAE
Uma rede baseada em domínios magnéticos em ferro com uma única camada autoconectada. Pode ser usado como uma memória endereçável de conteúdo.
A rede é separada em 2 camadas (oculta x visível), mas ainda usando pesos bidirecionais simétricos. Seguindo a termodinâmica de Boltzmann, probabilidades individuais dão origem a energias macroscópicas.
Máquina de Boltzmann restrita. Esta é uma máquina de Boltzmann onde as conexões laterais dentro de uma camada são proibidas para tornar a análise tratável.
Essa rede possui vários RBMs para codificar uma hierarquia de recursos ocultos. Depois que um único RBM é treinado, outra camada oculta azul (veja RBM à esquerda) é adicionada e as 2 camadas superiores são treinadas como um RBM vermelho e azul. Assim, as camadas intermediárias de um RBM atuam como ocultas ou visíveis, dependendo da fase de treinamento em que se encontra.
Em vez da conexão simétrica bidirecional das máquinas de Boltzmann empilhadas, temos conexões unidirecionais separadas para formar um loop. Faz tanto a geração quanto a discriminação.
Uma rede feedforward que visa encontrar uma boa representação da camada intermediária de seu mundo de entrada. Essa rede é determinística, portanto não é tão robusta quanto sua sucessora, a VAE.
Aplica inferência variacional ao Autoencoder. A camada do meio é um conjunto de médias e variâncias para distribuições gaussianas. A natureza estocástica permite uma imaginação mais robusta do que o autoencoder determinístico.

Das redes com nomes de pessoas, apenas Hopfield trabalhou diretamente com redes neurais. Boltzmann e Helmholtz vieram antes das redes neurais artificiais, mas seus trabalhos em física e fisiologia inspiraram os métodos analíticos usados.

História

1969 Perceptrons de Minsky & Papert mostra que um perceptron sem camadas ocultas falha em XOR
anos 1970 (datas aproximadas) AI inverno I
1974 Modelo magnético Ising proposto por WA Little para cognição
1980 Fukushima apresenta o neocognitron, que mais tarde é chamado de rede neural de convolução. É usado principalmente no SL, mas merece uma menção aqui.
1982 Ising variante da rede Hopfield descrita como CAMs e classificadores por John Hopfield.
1983 Máquina de Boltzmann variante de Ising com neurônios probabilísticos descritos por Hinton & Sejnowski seguindo o trabalho de Sherington & Kirkpatrick em 1975.
1986 Paul Smolensky publica a Harmony Theory, que é um RBM com praticamente a mesma função de energia de Boltzmann. Smolensky não deu um esquema de treinamento prático. Hinton fez em meados dos anos 2000
1995 Schmidthuber apresenta o neurônio LSTM para idiomas.
1995 Dayan & Hinton apresenta a máquina Helmholtz
1995-2005 (datas aproximadas) AI inverno II
2013 Kingma, Rezende, & co. introduziu Autoencoders Variacionais como rede de probabilidade gráfica bayesiana, com redes neurais como componentes.

Redes Específicas

Aqui, destacamos algumas características de redes selecionadas. Os detalhes de cada um são fornecidos na tabela de comparação abaixo.

Rede Hopfield
O ferromagnetismo inspirou as redes de Hopfield. Um neurônio corresponde a um domínio de ferro com momentos magnéticos binários para cima e para baixo, e as conexões neurais correspondem à influência do domínio entre si. Conexões simétricas permitem uma formulação energética global. Durante a inferência, a rede atualiza cada estado usando a função de etapa de ativação padrão. Pesos simétricos e as funções de energia corretas garantem a convergência para um padrão de ativação estável. Pesos assimétricos são difíceis de analisar. Redes Hopfield são usadas como Memórias Endereçáveis ​​de Conteúdo (CAM).
Máquina de Boltzmann
Estas são redes de Hopfield estocásticas. Seu valor de estado é amostrado a partir desta pdf da seguinte forma: suponha que um neurônio binário dispare com a probabilidade de Bernoulli p(1) = 1/3 e pare com p(0) = 2/3. Uma amostra dele pegando um número aleatório y distribuído UNIFORMEMENTE e inserindo-o na função de distribuição cumulativa invertida, que neste caso é a função degrau com limite de 2/3. A função inversa = { 0 se x <= 2/3, 1 se x > 2/3 }
Rede de Crenças Sigmóide
Introduzida por Radford Neal em 1992, essa rede aplica ideias de modelos gráficos probabilísticos a redes neurais. Uma diferença fundamental é que os nós em modelos gráficos têm significados pré-atribuídos, enquanto os recursos dos neurônios da Rede de Crenças são determinados após o treinamento. A rede é um grafo acíclico direcionado esparsamente conectado composto por neurônios estocásticos binários. A regra de aprendizado vem da Máxima Verossimilhança em p(X): Δw ij s j * (s i - p i ), onde pi = 1 / ( 1 + e entradas ponderadas no neurônio i ). s j 's são ativações de uma amostra não viesada da distribuição posterior e isso é problemático devido ao problema de explicação levantado por Judea Perl. Os métodos bayesianos variacionais usam um posterior substituto e descaradamente desconsideram essa complexidade.
Rede de Crenças Profundas
Introduzida por Hinton, esta rede é um híbrido de RBM e Sigmoid Belief Network. As 2 camadas superiores são um RBM e a segunda camada para baixo forma uma rede de crença sigmóide. Treine-o pelo método RBM empilhado e, em seguida, jogue fora os pesos de reconhecimento abaixo do RBM superior. A partir de 2009, 3-4 camadas parecem ser a profundidade ideal. [3]
máquina de Helmholtz
Estas são as primeiras inspirações para os Codificadores Automáticos Variacionais. São 2 redes combinadas em uma - os pesos para frente operam o reconhecimento e os pesos para trás implementam a imaginação. É talvez a primeira rede a fazer as duas coisas. Helmholtz não trabalhou em aprendizado de máquina, mas inspirou a visão do "mecanismo de inferência estatística cuja função é inferir causas prováveis ​​de entrada sensorial" (3). o neurônio binário estocástico gera uma probabilidade de que seu estado seja 0 ou 1. A entrada de dados normalmente não é considerada uma camada, mas no modo de geração da máquina Helmholtz, a camada de dados recebe entrada da camada do meio tem pesos separados para essa finalidade, então é considerada uma camada. Portanto, esta rede tem 3 camadas.
codificador automático variacional
Estes são inspirados nas máquinas de Helmholtz e combinam rede de probabilidade com redes neurais. Um Autoencoder é uma rede CAM de 3 camadas, onde a camada do meio deve ser uma representação interna dos padrões de entrada. A rede neural do codificador é uma distribuição de probabilidade q φ (z dado x) e a rede do decodificador é p θ (x dado z). Os pesos são nomeados phi & theta em vez de W e V como em Helmholtz - uma diferença cosmética. Essas 2 redes aqui podem ser totalmente conectadas ou usar outro esquema NN.

Comparação de redes

Hopfield Boltzmann RBM RBM empilhado Helmholtz Codificador automático VAE
Uso e notáveis CAM, problema do caixeiro viajante CAM. A liberdade de conexões torna esta rede difícil de analisar. reconhecimento de padrões. usado em dígitos MNIST e fala. reconhecimento e imaginação. treinados com pré-treinamento não supervisionado e/ou ajuste fino supervisionado. imaginação, mimetismo linguagem: escrita criativa, tradução. visão: melhorando imagens borradas gerar dados realistas
neurônio estado binário determinístico. Ativação = { 0 (ou -1) se x for negativo, 1 caso contrário } neurônio Hopfield binário estocástico ← mesmo. (estendido para valor real em meados dos anos 2000) ← mesmo ← mesmo idioma: LSTM. visão: campos receptivos locais. geralmente ativação de relu com valor real. os neurônios da camada intermediária codificam médias e variações para gaussianos. No modo de execução (inferência), a saída da camada do meio são valores amostrados dos gaussianos.
Conexões 1 camada com pesos simétricos. Sem autoconexões. 2 camadas. 1-oculto e 1-visível. pesos simétricos. ← mesmo.
sem conexões laterais dentro de uma camada.
a camada superior é não direcionada, simétrica. outras camadas são bidirecionais, assimétricas. 3 camadas: pesos assimétricos. 2 redes combinadas em 1. 3 camadas. A entrada é considerada uma camada mesmo que não tenha pesos de entrada. camadas recorrentes para NLP. convoluções feedforward para visão. entrada e saída têm as mesmas contagens de neurônios. 3 camadas: entrada, codificador, decodificador de amostrador de distribuição. o amostrador não é considerado uma camada (e)
Inferência e energia A energia é dada pela medida de probabilidade de Gibbs: ← mesmo ← mesmo minimizar a divergência KL a inferência é apenas feed-forward. redes UL anteriores funcionavam para frente E para trás minimizar erro = erro de reconstrução - KLD
Treinamento Δw ij = s i * s j , para +1/-1 neurônio Δw ij = e*(p ij - p' ij ). Isso é derivado da minimização do KLD. e = taxa de aprendizado, p' = predito ep = distribuição real. Δw ij = e*( < v i h j > dados - < v i h j > equilíbrio ). Esta é uma forma de divergência contrastiva com amostragem de Gibbs. "<>" são expectativas. ← semelhante. treine 1 camada de cada vez. estado de equilíbrio aproximado com uma passagem de 3 segmentos. sem retropropagação. vigília-sono treinamento de 2 fases voltar a propagar o erro de reconstrução reparametrizar estado oculto para backprop
Força assemelha-se a sistemas físicos, por isso herda suas equações ← mesmo. neurônios ocultos atuam como representação interna do mundo externo esquema de treinamento mais rápido e prático do que as máquinas de Boltzmann treina rapidamente. fornece uma camada hierárquica de recursos levemente anatômico. analisável com teoria da informação e mecânica estatística
Fraqueza difícil de treinar devido às conexões laterais o equilíbrio requer muitas iterações neurônios inteiros e de valor real são mais complicados.

Aprendizagem Hebbian, ART, SOM
O exemplo clássico de aprendizagem não supervisionada no estudo de redes neurais é o princípio de Donald Hebb , ou seja, neurônios que disparam juntos conectam-se entre si. [4] No aprendizado Hebbiano , a conexão é reforçada independentemente de um erro, mas é exclusivamente uma função da coincidência entre os potenciais de ação entre os dois neurônios. [5] Uma versão semelhante que modifica os pesos sinápticos leva em consideração o tempo entre os potenciais de ação ( plasticidade dependente do tempo de pico ou STDP). Acredita-se que o Aprendizado Hebbian seja subjacente a uma série de funções cognitivas, como reconhecimento de padrões e aprendizado experiencial.

Entre os modelos de redes neurais , o mapa auto-organizado (SOM) e a teoria de ressonância adaptativa (ART) são comumente usados ​​em algoritmos de aprendizado não supervisionado. O SOM é uma organização topográfica na qual locais próximos no mapa representam entradas com propriedades semelhantes. O modelo ART permite que o número de clusters varie com o tamanho do problema e permite que o usuário controle o grau de similaridade entre os membros dos mesmos clusters por meio de uma constante definida pelo usuário chamada parâmetro de vigilância. As redes ART são usadas para muitas tarefas de reconhecimento de padrões, como reconhecimento automático de alvos e processamento de sinais sísmicos. [6]

Métodos probabilísticos

Dois dos principais métodos usados ​​no aprendizado não supervisionado são o componente principal e a análise de cluster . A análise de cluster é usada no aprendizado não supervisionado para agrupar ou segmentar conjuntos de dados com atributos compartilhados para extrapolar relacionamentos algorítmicos. [7] A análise de cluster é um ramo do aprendizado de máquina que agrupa os dados que não foram rotulados , classificados ou categorizados. Em vez de responder ao feedback, a análise de cluster identifica semelhanças nos dados e reage com base na presença ou ausência de tais semelhanças em cada novo dado. Essa abordagem ajuda a detectar pontos de dados anômalos que não se encaixam em nenhum dos grupos.

Uma aplicação central do aprendizado não supervisionado está no campo da estimativa de densidade em estatística , [8] embora o aprendizado não supervisionado englobe muitos outros domínios envolvendo resumir e explicar recursos de dados. Pode ser contrastado com o aprendizado supervisionado dizendo que enquanto o aprendizado supervisionado pretende inferir uma distribuição de probabilidade condicional condicionada ao rótulo dos dados de entrada; o aprendizado não supervisionado pretende inferir uma distribuição de probabilidade a priori .

Abordagens

Alguns dos algoritmos mais comuns usados ​​no aprendizado não supervisionado incluem: (1) Agrupamento, (2) Detecção de anomalias, (3) Abordagens para aprender modelos de variáveis ​​latentes. Cada abordagem usa vários métodos, como segue:

Método dos momentos

Uma das abordagens estatísticas para aprendizado não supervisionado é o método dos momentos . No método dos momentos, os parâmetros desconhecidos (de interesse) no modelo estão relacionados aos momentos de uma ou mais variáveis ​​aleatórias, e assim, esses parâmetros desconhecidos podem ser estimados dados os momentos. Os momentos são geralmente estimados a partir de amostras empiricamente. Os momentos básicos são momentos de primeira e segunda ordem. Para um vetor aleatório, o momento de primeira ordem é o vetor médio e o momento de segunda ordem é a matriz de covariância (quando a média é zero). Momentos de ordem superior são geralmente representados usando tensores que são a generalização de matrizes para ordens superiores como matrizes multidimensionais.

Em particular, o método dos momentos mostra-se eficaz na aprendizagem dos parâmetros dos modelos de variáveis ​​latentes . Os modelos de variáveis ​​latentes são modelos estatísticos onde além das variáveis ​​observadas, existe também um conjunto de variáveis ​​latentes que não são observadas. Um exemplo altamente prático de modelos de variáveis ​​latentes em aprendizado de máquina é a modelagem de tópicosque é um modelo estatístico para gerar as palavras (variáveis ​​observadas) no documento com base no tópico (variável latente) do documento. Na modelagem de tópicos, as palavras no documento são geradas de acordo com diferentes parâmetros estatísticos quando o tópico do documento é alterado. É mostrado que o método dos momentos (técnicas de decomposição tensorial) recupera consistentemente os parâmetros de uma grande classe de modelos de variáveis ​​latentes sob algumas suposições. [11]

O algoritmo Expectation-maximization (EM) também é um dos métodos mais práticos para aprender modelos de variáveis ​​latentes. No entanto, ele pode ficar preso em ótimos locais e não é garantido que o algoritmo converja para os verdadeiros parâmetros desconhecidos do modelo. Em contraste, para o método dos momentos, a convergência global é garantida sob algumas condições.

Veja também

Referências

  1. ^ Hinton & Sejnowski 1999
  2. ^ Hinton, G. (2012). "Um Guia Prático para Treinamento de Máquinas Boltzmann Restritas" (PDF) . Redes neurais: truques do ofício . Notas de aula em Ciência da Computação. Vol. 7700. Springer. pp. 599–619. doi : 10.1007/978-3-642-35289-8_32 . ISBN 978-3-642-35289-8.
  3. ^ Hinton, Geoffrey (setembro de 2009). "Deep Belief Nets" (vídeo).
  4. ^ Buhmann, J.; Kuhnel, H. (1992). "Clustering de dados não supervisionados e supervisionados com redes neurais competitivas". [Proceedings 1992] IJCNN International Joint Conference on Neural Networks . Vol. 4. IEEE. pp. 796–801. doi : 10.1109/ijcnn.1992.227220 . ISBN 0780305590. S2CID  62651220 .
  5. ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (junho de 2016). "Uma aplicação do aprendizado Hebbian na tomada de decisão do processo de design" . Jornal de Manufatura Inteligente . 27 (3): 487–506. doi : 10.1007/s10845-014-0881-z . ISSN 0956-5515 . S2CID 207171436 .  
  6. ^ Carpinteiro, GA & Grossberg, S. (1988). "A arte do reconhecimento de padrões adaptativos por uma rede neural auto-organizada" (PDF) . Computador . 21 (3): 77–88. doi : 10.1109/2.33 . S2CID 14625094 .  
  7. ^ Roman, Victor (2019-04-21). "Aprendizado de Máquina Não Supervisionado: Análise de Cluster" . Médio . Recuperado 2019-10-01 .
  8. ^ Jordan, Michael I.; Bispo, Christopher M. (2004). "7. Sistemas Inteligentes §Redes Neurais". Em Tucker, Allen B. (ed.). Manual de Ciência da Computação (2ª ed.). Chapman & Hall/CRC Press. doi : 10.1201/9780203494455 . ISBN 1-58488-360-X.
  9. ^ Hastie, Tibshirani & Friedman 2009 , pp. 485–586
  10. ^ Garbade, Dr. Michael J. (2018-09-12). "Entendendo K-means Clustering em Machine Learning" . Médio . Recuperado 2019-10-31 .
  11. ^ Anandkumar, Animashree; Ge, Rong; Hsu, Daniel; Kakade, Sham; Telgarsky, Matus (2014). "Decomposições de tensores para aprender modelos de variáveis ​​latentes" (PDF) . Jornal de pesquisa de aprendizado de máquina . 15 : 2773-2832. arXiv : 1210.7559 . Código Bib : 2012arXiv1210.7559A .

Leitura adicional