Aprendizado não supervisionado

Da Wikipédia, a enciclopédia livre
Ir para a navegação Saltar para pesquisar

O aprendizado não supervisionado é um tipo de algoritmo que aprende padrões de dados não marcados. A esperança é que, por meio do mimetismo, que é um importante modo de aprendizado nas pessoas, a máquina seja forçada a construir uma representação interna compacta de seu mundo e, então, gerar conteúdo imaginativo a partir dele. Em contraste com o aprendizado supervisionado, onde os dados são marcados por um especialista, por exemplo, como uma "bola" ou "peixe", os métodos não supervisionados exibem auto-organização que captura padrões como densidades de probabilidade [1] ou uma combinação de preferências de recursos neurais. Os outros níveis no espectro de supervisão são o aprendizado por reforço, onde a máquina recebe apenas uma pontuação de desempenho numérica como orientação e o aprendizado semi-supervisionado.onde uma porção menor dos dados é marcada. Dois métodos amplos em Aprendizado Não Supervisionado são Redes Neurais e Métodos Probabilísticos.

Redes neurais

Tarefas vs. Métodos

Tendência para uma tarefa empregar métodos supervisionados versus não supervisionados. Nomes de tarefas abrangendo os limites do círculo são intencionais. Isso mostra que a divisão clássica de tarefas imaginativas (esquerda) empregando métodos não supervisionados é difusa nos esquemas de aprendizado atuais.

As tarefas de rede neural são frequentemente categorizadas como discriminativas (reconhecimento) ou generativas (imaginação). Frequentemente, mas nem sempre, as tarefas discriminativas usam métodos supervisionados e as tarefas generativas usam métodos não supervisionados (ver diagrama de Venn); no entanto, a separação é muito nebulosa. Por exemplo, o reconhecimento de objetos favorece o aprendizado supervisionado, mas o aprendizado não supervisionado também pode agrupar objetos em grupos. Além disso, à medida que o progresso avança, algumas tarefas empregam ambos os métodos e algumas tarefas oscilam de um para outro. Por exemplo, o reconhecimento de imagem começou como fortemente supervisionado, mas tornou-se híbrido ao empregar pré-treinamento não supervisionado e, em seguida, mudou para a supervisão novamente com o advento das taxas de abandono, relu e aprendizagem adaptativa.

Treinamento

Durante a fase de aprendizado, uma rede não supervisionada tenta imitar os dados fornecidos e usa o erro em sua saída imitada para se corrigir (ou seja, corrigir seus pesos e vieses). Isso se assemelha ao comportamento de mimetismo das crianças à medida que aprendem uma língua. Às vezes, o erro é expresso como uma baixa probabilidade de que a saída errônea ocorra, ou pode ser expresso como um estado instável de alta energia na rede.

Em contraste com o uso dominante de retropropagação do método supervisionado, o aprendizado não supervisionado também emprega outros métodos, incluindo: regra de aprendizado de Hopfield, regra de aprendizado de Boltzmann, divergência de contraste, sono acordado, inferência variacional, máxima verossimilhança, máxima a posteriori, amostragem de Gibbs e erros de reconstrução de retropropagação ou reparametrizações do estado oculto. Consulte a tabela abaixo para obter mais detalhes.

Energia

Uma função de energia é uma medida macroscópica do estado de ativação de uma rede. Nas máquinas Boltzmann, desempenha o papel da função Custo. Esta analogia com a física é inspirada na análise de Ludwig Boltzmann da energia macroscópica de um gás a partir das probabilidades microscópicas do movimento de partículas pe E/kT , onde k é a constante de Boltzmann e T é a temperatura. Na rede RBM a relação é p = e −E / Z, [2] onde p & E variam em cada padrão de ativação possível e Z =e -E(padrão) . Para ser mais preciso, p(a) = e -E(a) / Z, onde a é um padrão de ativação de todos os neurônios (visíveis e ocultos). Assim, as primeiras redes neurais levam o nome de Máquina de Boltzmann. Paul Smolensky chama -E de Harmonia. Uma rede busca baixa energia que é alta Harmonia.

Redes

Esta tabela mostra diagramas de conexão de várias redes não supervisionadas, cujos detalhes serão fornecidos na seção Comparação de Rede. Das redes com nomes de pessoas, apenas Hopfield trabalhava diretamente com redes neurais. Boltzmann e Helmholtz viveram antes da invenção das redes neurais artificiais, mas inspiraram os métodos analíticos que foram usados.

Hopfield Boltzmann RBM Helmholtz Autoencoder VAE
Uma rede baseada em domínios magnéticos em ferro com uma única camada auto-conectada.
2 camadas. Usa pesos simétricos de 2 vias. Seguindo a termodinâmica de Boltzmann, probabilidades individuais dão origem a energias macroscópicas.
Máquina de Boltzmann restrita. Esta é uma máquina Boltzmann onde as conexões laterais dentro de uma camada são proibidas para tornar a análise tratável.
Em vez da conexão simétrica bidirecional de uma máquina de Boltzmann, temos conexões unidirecionais separadas para formar um loop. Faz geração e discriminação.
Uma rede feed forward que visa encontrar uma boa representação da camada intermediária de seu mundo de entrada.
Aplica Inferência Variacional ao Autoencoder. A camada intermediária é um conjunto de médias e variâncias para distribuições gaussianas.

História

1969 Perceptrons de Minsky & Papert mostra que um perceptron sem camadas ocultas falha no XOR
década de 1970 (datas aproximadas) AI inverno I
1974 Modelo magnético de Ising proposto por WA Little para cognição
1980 Fukushima introduz o neocognitron, que mais tarde é chamado de rede neural de convolução. É usado principalmente no SL, mas merece uma menção aqui.
1982 Ising variante Hopfield net descrita como CAMs e classificadores por John Hopfield.
1983 Máquina de Boltzmann variante de Ising com neurônios probabilísticos descritos por Hinton & Sejnowski seguindo o trabalho de Sherington & Kirkpatrick em 1975.
1986 Paul Smolensky publica a Teoria da Harmonia, que é uma RBM com praticamente a mesma função de energia de Boltzmann. Smolensky não deu um esquema de treinamento prático. Hinton fez em meados dos anos 2000
1995 Schmidthuber apresenta o neurônio LSTM para linguagens.
1995 Dayan & Hinton apresenta máquina Helmholtz
1995-2005 (datas aproximadas) AI inverno II
2013 Kingma, Rezende, & co. introduziu Autoencoders Variacionais como rede de probabilidade gráfica Bayesiana, com redes neurais como componentes.

Redes Específicas

Aqui, destacamos algumas características de cada rede. O ferromagnetismo inspirou redes Hopfield, máquinas Boltzmann e RBMs. Um neurônio corresponde a um domínio de ferro com momentos magnéticos binários Up e Down, e as conexões neurais correspondem à influência do domínio sobre o outro. Conexões simétricas permitem uma formulação global de energia. Durante a inferência, a rede atualiza cada estado usando a função de etapa de ativação padrão. Pesos simétricos garantem a convergência para um padrão de ativação estável.

Hopfield
as redes são usadas como CAMs e são garantidas para se estabelecer em algum padrão. Sem pesos simétricos, a rede é muito difícil de analisar. Com a função de energia correta, uma rede convergirá.
Máquinas Boltzmann
Estas são redes Hopfield estocásticas. Seu valor de estado é amostrado desta pdf da seguinte forma: suponha que um neurônio binário dispare com a probabilidade de Bernoulli p(1) = 1/3 e repouse com p(0) = 2/3. Uma amostra dele pegando um número aleatório distribuído UNIFORME y, e plugando-o na função de distribuição cumulativa invertida, que neste caso é a função degrau com limite de 2/3. A função inversa = { 0 se x <= 2/3, 1 se x > 2/3 }
Helmholtz
Estas são as primeiras inspirações para os Auto Encoders Variacionais. São 2 redes combinadas em uma - pesos para frente operam o reconhecimento e pesos para trás implementam a imaginação. É talvez a primeira rede a fazer as duas coisas. Helmholtz não trabalhou em aprendizado de máquina, mas inspirou a visão do "motor de inferência estatística cuja função é inferir causas prováveis ​​de entrada sensorial" (3). o neurônio binário estocástico gera uma probabilidade de que seu estado seja 0 ou 1. A entrada de dados normalmente não é considerada uma camada, mas no modo de geração de máquina de Helmholtz, a camada de dados recebe entrada da camada intermediária tem pesos separados para esse propósito, então é considerado uma camada. Portanto, esta rede tem 3 camadas.
Autoencoder Variacional
Estes são inspirados nas máquinas de Helmholtz e combinam redes de probabilidade com redes neurais. Um Autoencoder é uma rede CAM de 3 camadas, onde a camada intermediária deve ser uma representação interna de padrões de entrada. A rede neural do codificador é uma distribuição de probabilidade q φ (z dado x) e a rede do decodificador é p θ (x dado z). Os pesos são denominados phi & theta em vez de W e V como em Helmholtz – uma diferença cosmética. Essas 2 redes aqui podem ser totalmente conectadas ou usar outro esquema NN.

Comparação de Redes

Hopfield Boltzmann RBM Helmholtz Autoencoder VAE
uso e notáveis CAM, problema do caixeiro viajante CAM. A liberdade de conexões dificulta a análise dessa rede. reconhecimento de padrões (MNIST, reconhecimento de fala) imaginação, mimetismo linguagem: escrita criativa, tradução. Visão: melhorar imagens desfocadas gerar dados realistas
neurônio estado binário determinístico. Ativação = { 0 (ou -1) se x for negativo, 1 caso contrário } neurônio de Hopfield binário estocástico binário estocástico. Estendido para o valor real em meados dos anos 2000 estocástico, binário, sigmóide idioma: LSTM. visão: campos receptivos locais. geralmente ativação de relu de valor real. os neurônios da camada intermediária codificam médias e variações para Gaussianos. No modo de execução (inferência), a saída da camada intermediária são valores amostrados das Gaussianas.
conexões 1 camada com pesos simétricos. Sem auto-conexões. 2 camadas. 1-escondido e 1-visível. pesos simétricos. ← mesmo.
sem conexões laterais dentro de uma camada.
3 camadas: pesos assimétricos. 2 redes combinadas em 1. 3 camadas. A entrada é considerada uma camada mesmo que não tenha pesos de entrada. camadas recorrentes para PNL. convoluções feedforward para visão. entrada e saída têm a mesma contagem de neurônios. 3 camadas: entrada, codificador, decodificador de amostrador de distribuição. o amostrador não é considerado uma camada (e)
inferência e energia a energia é dada pela medida de probabilidade de Gibbs: ← mesmo ← mesmo minimizar a divergência KL a inferência é apenas feed-forward. as redes UL anteriores funcionavam para frente e para trás minimizar erro = erro de reconstrução - KLD
Treinamento Δw ij = s i *s j , para +1/-1 neurônio Δw ij = e*(p ij - p' ij ). Isso é derivado da minimização do KLD. e = taxa de aprendizado, p' = previsto ep = distribuição real. Δw ij = e*( < v i h j > dados - < v i h j > equilíbrio ). Colchetes angulares <> denotam expectativa e o equilíbrio requer muitas iterações. Esta regra é uma forma de divergência contrastiva com amostragem de Gibbs treinamento vigília-sono 2 fases voltar propagar o erro de reconstrução reparar o estado oculto para backprop
força assemelha-se a sistemas físicos, por isso herda suas equações ← mesmo. neurônios ocultos atuam como representação interna do mundo externo esquema de treinamento mais rápido e prático do que as máquinas Boltzmann levemente anatômica. analisável com teoria da informação e mecânica estatística
fraqueza difícil de treinar devido a conexões laterais

Hebbian Learning, ART, SOM
O exemplo clássico de aprendizado não supervisionado no estudo de redes neurais é o princípio de Donald Hebb , ou seja, neurônios que disparam juntos conectam-se. [3] Na aprendizagem hebbiana , a conexão é reforçada independentemente de um erro, mas é exclusivamente uma função da coincidência entre os potenciais de ação entre os dois neurônios. [4] Uma versão semelhante que modifica os pesos sinápticos leva em consideração o tempo entre os potenciais de ação ( plasticidade dependente do tempo de pico ou STDP). A hipótese de aprendizagem hebbiana está subjacente a uma série de funções cognitivas, como reconhecimento de padrões e aprendizagem experiencial.

Entre os modelos de redes neurais , o mapa auto-organizável (SOM) e a teoria de ressonância adaptativa (ART) são comumente usados ​​em algoritmos de aprendizado não supervisionado. O SOM é uma organização topográfica na qual locais próximos no mapa representam entradas com propriedades semelhantes. O modelo ART permite que o número de clusters varie com o tamanho do problema e permite que o usuário controle o grau de similaridade entre os membros de um mesmo cluster por meio de uma constante definida pelo usuário chamada de parâmetro de vigilância. As redes ART são usadas para muitas tarefas de reconhecimento de padrões, como reconhecimento automático de alvos e processamento de sinais sísmicos. [5]

Métodos probabilísticos

Dois dos principais métodos usados ​​no aprendizado não supervisionado são a análise de componentes principais e de cluster . A análise de cluster é usada no aprendizado não supervisionado para agrupar ou segmentar conjuntos de dados com atributos compartilhados para extrapolar relacionamentos algorítmicos. [6] A análise de cluster é um ramo do aprendizado de máquina que agrupa os dados que não foram rotulados , classificados ou categorizados. Em vez de responder ao feedback, a análise de cluster identifica semelhanças nos dados e reage com base na presença ou ausência de tais semelhanças em cada novo dado. Essa abordagem ajuda a detectar pontos de dados anômalos que não se encaixam em nenhum dos grupos.

Uma aplicação central do aprendizado não supervisionado é no campo da estimativa de densidade em estatística , [7] embora o aprendizado não supervisionado abranja muitos outros domínios envolvendo resumir e explicar características de dados. Pode-se contrastar com o aprendizado supervisionado dizendo que enquanto o aprendizado supervisionado pretende inferir uma distribuição de probabilidade condicional condicionada ao rótulo dos dados de entrada; o aprendizado não supervisionado pretende inferir uma distribuição de probabilidade a priori .

Abordagens

Alguns dos algoritmos mais comuns usados ​​no aprendizado não supervisionado incluem: (1) Clustering, (2) Detecção de anomalias, (3) Abordagens para aprender modelos de variáveis ​​latentes. Cada abordagem usa vários métodos da seguinte forma:

Método de momentos

Uma das abordagens estatísticas para o aprendizado não supervisionado é o método dos momentos . No método dos momentos, os parâmetros desconhecidos (de interesse) no modelo estão relacionados aos momentos de uma ou mais variáveis ​​aleatórias, e assim, esses parâmetros desconhecidos podem ser estimados dados os momentos. Os momentos são geralmente estimados a partir de amostras empiricamente. Os momentos básicos são momentos de primeira e segunda ordem. Para um vetor aleatório, o momento de primeira ordem é o vetor médio e o momento de segunda ordem é a matriz de covariância (quando a média é zero). Momentos de ordem superior são geralmente representados usando tensores que são a generalização de matrizes para ordens superiores como matrizes multidimensionais.

Em particular, o método dos momentos se mostra eficaz no aprendizado dos parâmetros dos modelos de variáveis ​​latentes . Os modelos de variáveis ​​latentes são modelos estatísticos onde, além das variáveis ​​observadas, existe também um conjunto de variáveis ​​latentes que não são observadas. Um exemplo altamente prático de modelos de variáveis ​​latentes em aprendizado de máquina é a modelagem de tópicosque é um modelo estatístico para gerar as palavras (variáveis ​​observadas) no documento com base no tópico (variável latente) do documento. Na modelagem de tópicos, as palavras do documento são geradas de acordo com diferentes parâmetros estatísticos quando o tópico do documento é alterado. Mostra-se que o método dos momentos (técnicas de decomposição tensorial) recupera consistentemente os parâmetros de uma grande classe de modelos de variáveis ​​latentes sob algumas hipóteses. [10]

O algoritmo de maximização de expectativa (EM) também é um dos métodos mais práticos para aprender modelos de variáveis ​​latentes. No entanto, ele pode ficar preso em ótimos locais e não é garantido que o algoritmo convirja para os verdadeiros parâmetros desconhecidos do modelo. Em contraste, para o método dos momentos, a convergência global é garantida em algumas condições.

Veja também

Referências

  1. ^ Hinton, Geoffrey; Sejnowski, Terrence (1999). Aprendizagem não supervisionada: Fundamentos da Computação Neural . Imprensa do MIT. ISBN 978-0262581684.
  2. ^ Hinton, G (2010-08-02). "Um guia prático para treinar máquinas Boltzmann restritas".
  3. ^ Buhmann, J.; Kuhnel, H. (1992). "Agrupamento de dados não supervisionado e supervisionado com redes neurais competitivas". [Proceedings 1992] IJCNN International Joint Conference on Neural Networks . Vol. 4. IEEE. pp. 796-801. doi : 10.1109/ijcnn.1992.227220 . ISBN 0780305590. S2CID  62651220 .
  4. ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (junho de 2016). "Uma aplicação da aprendizagem Hebbiana na tomada de decisão do processo de design" . Jornal de Manufatura Inteligente . 27 (3): 487-506. doi : 10.1007/s10845-014-0881-z . ISSN 0956-5515 . S2CID 207171436 .  
  5. ^ Carpinteiro, GA & Grossberg, S. (1988). "A ART de reconhecimento de padrões adaptativos por uma rede neural auto-organizada" (PDF) . Computador . 21 (3): 77–88. doi : 10.1109/2.33 . S2CID 14625094 .  
  6. ^ Roman, Victor (2019-04-21). "Aprendizado de Máquina Não Supervisionado: Análise de Clustering" . Médio . Recuperado 2019-10-01 .
  7. ^ Jordan, Michael I.; Bispo, Christopher M. (2004). "Redes neurais". Em Allen B. Tucker (ed.). Manual de Ciência da Computação, Segunda Edição (Seção VII: Sistemas Inteligentes) . Boca Raton, Flórida: Chapman & Hall/CRC Press LLC. ISBN 1-58488-360-X.
  8. ^ Hastie, Trevor, Robert Tibshirani, Friedman, Jerome (2009). Os Elementos da Aprendizagem Estatística: Mineração de Dados, Inferência e Previsão . Nova York: Springer. págs. 485-586. ISBN 978-0-387-84857-0.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. ^ Garbade, Dr. Michael J. (2018-09-12). "Compreendendo o cluster K-means no aprendizado de máquina" . Médio . Recuperado 2019-10-31 .
  10. ^ Anandkumar, Animashree; Ge, Rong; Hsu, Daniel; Kakade, Sham; Telgarsky, Matus (2014). "Decomposições de Tensor para Aprendizagem de Modelos de Variáveis ​​Latentes" (PDF) . Journal of Machine Learning Research . 15 : 2773-2832. arXiv : 1210.7559 . Bibcode : 2012arXiv1210.7559A .

Leitura adicional