Aprendizado por reforço

Da Wikipédia, a enciclopédia livre
Ir para a navegação Saltar para pesquisar

O aprendizado por reforço ( RL ) é uma área do aprendizado de máquina preocupado com como os agentes inteligentes devem agir em um ambiente para maximizar a noção de recompensa cumulativa. O aprendizado por reforço é um dos três paradigmas básicos de aprendizado de máquina, juntamente com o aprendizado supervisionado e o aprendizado não supervisionado .

O aprendizado por reforço difere do aprendizado supervisionado por não precisar que pares de entrada/saída rotulados sejam apresentados e por não precisar que ações sub-ótimas sejam explicitamente corrigidas. Em vez disso, o foco está em encontrar um equilíbrio entre a exploração (de território inexplorado) e a exploração (do conhecimento atual). [1] Os algoritmos RL parcialmente supervisionados podem combinar as vantagens dos algoritmos supervisionados e RL. [2]

O ambiente é tipicamente declarado na forma de um processo de decisão de Markov (MDP), porque muitos algoritmos de aprendizado por reforço para esse contexto usam técnicas de programação dinâmica . [3] A principal diferença entre os métodos clássicos de programação dinâmica e os algoritmos de aprendizado por reforço é que os últimos não pressupõem o conhecimento de um modelo matemático exato do MDP e visam grandes MDPs onde métodos exatos se tornam inviáveis.

Introdução

O enquadramento típico de um cenário de Aprendizado por Reforço (RL): um agente realiza ações em um ambiente, que são interpretadas em uma recompensa e uma representação do estado, que são realimentadas no agente.

Devido à sua generalidade, o aprendizado por reforço é estudado em muitas disciplinas, como teoria dos jogos, teoria de controle , pesquisa operacional , teoria da informação , otimização baseada em simulação , sistemas multiagentes , inteligência de enxames e estatística . Na literatura de pesquisa e controle de operações, o aprendizado por reforço é chamado de programação dinâmica aproximada ou programação neurodinâmica. Os problemas de interesse em aprendizado por reforço também têm sido estudados na teoria do controle ótimo., que se preocupa principalmente com a existência e caracterização de soluções ótimas, e algoritmos para seu cálculo exato, e menos com aprendizado ou aproximação, principalmente na ausência de um modelo matemático do ambiente. Na economia e na teoria dos jogos , o aprendizado por reforço pode ser usado para explicar como o equilíbrio pode surgir sob a racionalidade limitada .

O reforço básico é modelado como um processo de decisão de Markov (MDP) :

  • um conjunto de estados de ambiente e agente, S ;
  • um conjunto de ações, A , do agente;
  • é a probabilidade de transição (no momento) do estadodeclararem ação.
  • é a recompensa imediata após a transição deparacom ação.

O objetivo do aprendizado por reforço é que o agente aprenda uma política ótima, ou quase ótima, que maximize a "função de recompensa" ou outro sinal de reforço fornecido pelo usuário que se acumula a partir das recompensas imediatas. Isso é semelhante aos processos que parecem ocorrer na psicologia animal. Por exemplo, cérebros biológicos são programados para interpretar sinais como dor e fome como reforços negativos e interpretar prazer e ingestão de alimentos como reforços positivos. Em algumas circunstâncias, os animais podem aprender a se engajar em comportamentos que otimizam essas recompensas. Isso sugere que os animais são capazes de aprender por reforço. [4] [5]

Um agente de aprendizado por reforço básico AI interage com seu ambiente em etapas de tempo discretas. A cada tempo t , o agente recebe o estado atuale recompensa. Em seguida, ele escolhe uma açãodo conjunto de ações disponíveis, que posteriormente é enviado ao ambiente. O ambiente se move para um novo estadoe a recompensaassociada à transição está determinado. O objetivo de um agente de aprendizado por reforço é aprender uma política :,que maximiza a recompensa cumulativa esperada.

Formular o problema como um MDP pressupõe que o agente observa diretamente o estado ambiental atual; neste caso, diz-se que o problema tem observabilidade total . Se o agente tem acesso apenas a um subconjunto de estados, ou se os estados observados são corrompidos por ruído, diz-se que o agente tem observabilidade parcial e formalmente o problema deve ser formulado como um processo de decisão de Markov Parcialmente observável . Em ambos os casos, o conjunto de ações disponíveis para o agente pode ser restrito. Por exemplo, o estado de um saldo de conta pode ser restrito para ser positivo; se o valor atual do estado for 3 e a transição de estado tentar reduzir o valor em 4, a transição não será permitida.

Quando o desempenho do agente é comparado ao de um agente que atua de forma ótima, a diferença de desempenho dá origem à noção de arrependimento . Para agir de forma quase ótima, o agente deve raciocinar sobre as consequências de longo prazo de suas ações (ou seja, maximizar a renda futura), embora a recompensa imediata associada a isso possa ser negativa.

Assim, o aprendizado por reforço é particularmente adequado para problemas que incluem um trade-off de recompensa de longo prazo versus curto prazo. Foi aplicado com sucesso em vários problemas, incluindo controle de robôs , [6] agendamento de elevadores , telecomunicações , gamão , damas [7] e Go ( AlphaGo ).

Dois elementos tornam o aprendizado por reforço poderoso: o uso de amostras para otimizar o desempenho e o uso de aproximação de funções para lidar com grandes ambientes. Graças a esses dois componentes principais, o aprendizado por reforço pode ser usado em grandes ambientes nas seguintes situações:

Os dois primeiros desses problemas podem ser considerados problemas de planejamento (já que alguma forma de modelo está disponível), enquanto o último pode ser considerado um problema de aprendizagem genuíno. No entanto, o aprendizado por reforço converte ambos os problemas de planejamento em problemas de aprendizado de máquina .

Exploração

O trade-off exploração versus exploração foi estudado mais detalhadamente através do problema do bandido multi-armado e para MDPs de espaço de estados finitos em Buretas e Katehakis (1997). [9]

A aprendizagem por reforço requer mecanismos inteligentes de exploração; selecionar ações aleatoriamente, sem referência a uma distribuição de probabilidade estimada, mostra um desempenho ruim. O caso de (pequenos) processos de decisão Markov finitos é relativamente bem compreendido. No entanto, devido à falta de algoritmos que escalam bem com o número de estados (ou escalam para problemas com espaços de estados infinitos), métodos de exploração simples são os mais práticos.

Um desses métodos é-ganancioso, ondeé um parâmetro que controla a quantidade de exploração versus exploração. Com probabilidade, a exploração é escolhida, e o agente escolhe a ação que acredita ter o melhor efeito a longo prazo (os laços entre as ações são quebrados uniformemente ao acaso). Alternativamente, com probabilidade, a exploração é escolhida e a ação é escolhida uniformemente ao acaso.geralmente é um parâmetro fixo, mas pode ser ajustado de acordo com uma programação (fazendo com que o agente explore progressivamente menos) ou de forma adaptativa com base em heurísticas. [10]

Algoritmos para aprendizado de controle

Mesmo que a questão da exploração seja desconsiderada e mesmo que o estado fosse observável (assumido a seguir), o problema permanece em usar a experiência passada para descobrir quais ações levam a recompensas cumulativas mais altas.

Critério de otimalidade

Política

A seleção de ação do agente é modelada como um mapa chamado policy :

O mapa de políticas fornece a probabilidade de agirquando no estado. [11] : 61  Existem também políticas determinísticas.

Função de valor de estado

A função valoré definido como o retorno esperado começando com o estado, ou seja, e seguindo sucessivamente a política. Assim, grosso modo, a função valor estima "quão bom" é estar em um determinado estado. [11] : 60 

onde a variável aleatóriadenota o retorno , e é definido como a soma das recompensas com desconto futuro:

Ondeé a recompensa na etapa,é a taxa de desconto . Gama é menor que 1, então eventos no futuro distante têm peso menor do que eventos no futuro imediato.

O algoritmo deve encontrar uma política com retorno máximo esperado. Da teoria dos MDPs sabe-se que, sem perda de generalidade, a busca pode ser restrita ao conjunto das chamadas políticas estacionárias . Uma política é estacionária se a ação-distribuição retornada por ela depende apenas do último estado visitado (do histórico do agente de observação). A busca pode ser ainda mais restrita a políticas estacionárias determinísticas . Uma política estacionária determinística seleciona deterministicamente ações com base no estado atual. Como qualquer política desse tipo pode ser identificada com um mapeamento do conjunto de estados para o conjunto de ações, essas políticas podem ser identificadas com esses mapeamentos sem perda de generalidade.

Força bruta

A abordagem da força bruta envolve duas etapas:

  • Para cada política possível, a amostra retorna enquanto a segue
  • Escolha a apólice com maior retorno esperado

Um problema com isso é que o número de políticas pode ser grande ou até infinito. Outra é que a variância dos retornos pode ser grande, o que requer muitas amostras para estimar com precisão o retorno de cada apólice.

Esses problemas podem ser melhorados se assumirmos alguma estrutura e permitirmos que amostras geradas de uma política influenciem as estimativas feitas para outras. As duas principais abordagens para alcançar isso são a estimativa da função de valor e a busca direta de políticas .

Função de valor

As abordagens de função de valor tentam encontrar uma política que maximize o retorno mantendo um conjunto de estimativas de retornos esperados para alguma política (geralmente a "atual" [on-policy] ou a ótima [off-policy]).

Esses métodos se baseiam na teoria dos processos de decisão de Markov, onde a otimalidade é definida em um sentido que é mais forte do que o anterior: uma política é chamada de ótima se ela alcança o melhor retorno esperado de qualquer estado inicial (ou seja, as distribuições iniciais não desempenham nenhum papel). papel nesta definição). Novamente, uma política ótima sempre pode ser encontrada entre políticas estacionárias.

Para definir a otimalidade de maneira formal, defina o valor de uma políticapor

Onderepresenta o retorno associado ao seguintedo estado inicial. Definindocomo o valor máximo possível de, Ondeé permitido mudar,

Uma política que atinge esses valores ótimos em cada estado é chamada de ótima . Claramente, uma política que é ótima nesse sentido forte também é ótima no sentido de maximizar o retorno esperado., Desde a, Ondeé um estado amostrado aleatoriamente da distribuiçãode estados iniciais (assim).

Embora os valores de estado sejam suficientes para definir a otimização, é útil definir os valores de ação. Dado um estado, uma açãoe uma política, o valor de ação do pardebaixoé definido por

Ondeagora representa o retorno aleatório associado à primeira açãono estadoe seguindo, Depois disso.

A teoria dos MDPs afirma que seé uma política ótima, agimos de maneira otimizada (tomamos a ação ótima) escolhendo a ação decom o maior valor em cada estado,. A função de valor de ação de tal política ótima () é chamada de função valor-ação ótima e é comumente denotada por. Em resumo, o conhecimento da função valor-ação ótima por si só é suficiente para saber como agir de forma ótima.

Assumindo pleno conhecimento do MDP, as duas abordagens básicas para calcular a função ótima de ação-valor são iteração de valor e iteração de política . Ambos os algoritmos calculam uma sequência de funções() que convergem para. A computação dessas funções envolve a computação de expectativas em todo o espaço de estados, o que é impraticável para todos, exceto para os menores (finitos) MDPs. Nos métodos de aprendizado por reforço, as expectativas são aproximadas pela média de amostras e usando técnicas de aproximação de função para lidar com a necessidade de representar funções de valor em grandes espaços de ação de estado.

Métodos de Monte Carlo

Os métodos de Monte Carlo podem ser usados ​​em um algoritmo que imita a iteração de políticas. A iteração de política consiste em duas etapas: avaliação de política e melhoria de política .

Monte Carlo é usado na etapa de avaliação da política. Nesta etapa, dada uma política estacionária e determinística, o objetivo é calcular os valores da função(ou uma boa aproximação a eles) para todos os pares estado-ação. Assumindo (por simplicidade) que o MDP é finito, que há memória suficiente disponível para acomodar os valores de ação e que o problema é episódico e que após cada episódio um novo começa a partir de algum estado inicial aleatório. Então, a estimativa do valor de um determinado par estado-açãopode ser calculado pela média dos retornos amostrados que se originaram dehora extra. Dado tempo suficiente, este procedimento pode, assim, construir uma estimativa precisada função de valor de ação. Isso conclui a descrição da etapa de avaliação da política.

Na etapa de melhoria da política, a próxima política é obtida calculando uma política gananciosa em relação a: Dado um estado, essa nova política retorna uma ação que maximiza. Na prática , a avaliação preguiçosa pode adiar o cálculo das ações de maximização para quando elas forem necessárias.

Os problemas com este procedimento incluem:

  • O procedimento pode gastar muito tempo avaliando uma política abaixo do ideal.
  • Ele usa amostras de forma ineficiente, pois uma longa trajetória melhora a estimativa apenas do único par estado-ação que iniciou a trajetória.
  • Quando os retornos ao longo das trajetórias têm alta variância , a convergência é lenta.
  • Funciona apenas em problemas episódicos ;
  • Funciona apenas em MDPs pequenos e finitos.

Métodos de diferença temporal

O primeiro problema é corrigido permitindo que o procedimento altere a política (em alguns ou em todos os estados) antes que os valores se estabeleçam. Isso também pode ser problemático, pois pode impedir a convergência. A maioria dos algoritmos atuais faz isso, dando origem à classe de algoritmos de iteração de política generalizada . Muitos métodos críticos de atores pertencem a esta categoria.

A segunda questão pode ser corrigida permitindo que as trajetórias contribuam para qualquer par estado-ação nelas. Isso também pode ajudar até certo ponto com o terceiro problema, embora uma solução melhor quando os retornos têm alta variância são os métodos de diferença temporal (TD) de Sutton que são baseados na equação recursiva de Bellman . [12] [13] A computação em métodos TD pode ser incremental (quando após cada transição a memória é alterada e a transição é descartada), ou em lote (quando as transições são agrupadas e as estimativas são computadas uma vez com base no lote) . Métodos em lote, como o método de diferença temporal de mínimos quadrados, [14]podem usar melhor as informações das amostras, enquanto os métodos incrementais são a única opção quando os métodos em lote são inviáveis ​​devido à sua alta complexidade computacional ou de memória. Alguns métodos tentam combinar as duas abordagens. Métodos baseados em diferenças temporais também superam a quarta questão.

A fim de abordar a quinta questão, métodos de aproximação de função são usados. A aproximação de função linear começa com um mapeamentoque atribui um vetor de dimensão finita a cada par estado-ação. Então, os valores de ação de um par estado-açãosão obtidos combinando linearmente os componentes decom alguns pesos :

Os algoritmos então ajustam os pesos, em vez de ajustar os valores associados aos pares de estado-ação individuais. Métodos baseados em ideias de estatísticas não paramétricas (que podem ser vistas construindo suas próprias características) têm sido explorados.

A iteração de valor também pode ser usada como ponto de partida, dando origem ao algoritmo Q-learning e suas muitas variantes. [15]

O problema com o uso de valores de ação é que eles podem precisar de estimativas altamente precisas dos valores de ação concorrentes que podem ser difíceis de obter quando os retornos são ruidosos, embora esse problema seja mitigado até certo ponto por métodos de diferença temporal. O uso do chamado método de aproximação de função compatível compromete a generalidade e a eficiência. Outro problema específico do TD vem de sua confiança na equação recursiva de Bellman. A maioria dos métodos TD tem um chamadoparâmetroque pode interpolar continuamente entre os métodos de Monte Carlo que não dependem das equações de Bellman e os métodos básicos de TD que dependem inteiramente das equações de Bellman. Isso pode ser eficaz para atenuar esse problema.

Pesquisa de política direta

Um método alternativo é pesquisar diretamente em (algum subconjunto) do espaço de políticas, caso em que o problema se torna um caso de otimização estocástica . As duas abordagens disponíveis são métodos baseados em gradiente e métodos livres de gradiente.

Métodos baseados em gradiente ( métodos de gradiente de política ) começam com um mapeamento de um espaço de dimensão finita (parâmetro) para o espaço de políticas: dado o vetor de parâmetro, deixeidenotar a política associada a. Definindo a função de desempenho por

sob condições suaves esta função será diferenciável em função do vetor de parâmetros. Se o gradiente deera conhecido, pode-se usar gradiente de subida . Como uma expressão analítica para o gradiente não está disponível, apenas uma estimativa ruidosa está disponível. Tal estimativa pode ser construída de várias maneiras, dando origem a algoritmos como o método REINFORCE de Williams [16] (que é conhecido como método da razão de verossimilhança na literatura de otimização baseada em simulação ). [17] Métodos de busca de políticas têm sido usados ​​no contexto da robótica . [18] Muitos métodos de pesquisa de políticas podem ficar presos em ótimos locais (pois são baseados em pesquisa local ).

Uma grande classe de métodos evita depender de informações de gradiente. Estes incluem recozimento simulado , pesquisa de entropia cruzada ou métodos de computação evolutiva . Muitos métodos livres de gradiente podem alcançar (em teoria e no limite) um ótimo global.

Os métodos de pesquisa de políticas podem convergir lentamente devido a dados ruidosos. Por exemplo, isso acontece em problemas episódicos quando as trajetórias são longas e a variância dos retornos é grande. Métodos baseados em função de valor que dependem de diferenças temporais podem ajudar neste caso. Nos últimos anos, métodos de ator-crítico foram propostos e tiveram um bom desempenho em vários problemas. [19]

Algoritmos baseados em modelo

Finalmente, todos os métodos acima podem ser combinados com algoritmos que primeiro aprendem um modelo. Por exemplo, o algoritmo Dyna [20] aprende um modelo a partir da experiência e usa isso para fornecer mais transições modeladas para uma função de valor, além das transições reais. Tais métodos podem algumas vezes ser estendidos para uso de modelos não paramétricos, como quando as transições são simplesmente armazenadas e 'repetidas' [21] para o algoritmo de aprendizado.

Existem outras maneiras de usar modelos além de atualizar uma função de valor. [22] Por exemplo, no controle preditivo de modelo, o modelo é usado para atualizar o comportamento diretamente.

Teoria

Ambos os comportamentos assintóticos e de amostra finita da maioria dos algoritmos são bem compreendidos. Algoritmos com desempenho online comprovadamente bom (resolvendo o problema de exploração) são conhecidos.

A exploração eficiente de MDPs é dada em Buretas e Katehakis (1997). [9] Limites de desempenho em tempo finito também apareceram para muitos algoritmos, mas espera-se que esses limites sejam bastante frouxos e, portanto, mais trabalho é necessário para entender melhor as vantagens e limitações relativas.

Para algoritmos incrementais, problemas de convergência assintótica foram resolvidos [ clarificação necessária ] . Algoritmos baseados em diferenças temporais convergem sob um conjunto mais amplo de condições do que era possível anteriormente (por exemplo, quando usado com aproximação de função suave e arbitrária).

Pesquisa

Os tópicos de pesquisa incluem

  • métodos adaptativos que funcionam com menos (ou nenhum) parâmetros sob um grande número de condições
  • abordando o problema de exploração em grandes MDPs
  • combinações com frameworks baseados em lógica [23]
  • avaliações empíricas em larga escala
  • aprendendo e agindo sob informações parciais (por exemplo, usando representação de estado preditivo )
  • aprendizado por reforço modular e hierárquico [24]
  • melhorar a função de valor existente e os métodos de pesquisa de políticas
  • algoritmos que funcionam bem com grandes (ou contínuos) espaços de ação
  • transferência de aprendizagem [25]
  • formação contínua
  • planejamento baseado em amostra eficiente (por exemplo, com base na busca em árvore de Monte Carlo ).
  • detecção de bugs em projetos de software [26]
  • Motivação intrínseca que diferencia comportamentos de busca de informações, tipo curiosidade, de comportamentos direcionados a objetivos dependentes de tarefas (normalmente), introduzindo uma função de recompensa baseada na maximização de novas informações [27] [28] [29]
  • O aprendizado por reforço multiagente ou distribuído é um tópico de interesse. Os aplicativos estão se expandindo. [30]
  • Aprendizagem por reforço do ator-crítico
  • Algoritmos de aprendizado por reforço, como o aprendizado TD, estão sendo investigados como um modelo para o aprendizado baseado em dopamina no cérebro. Neste modelo, as projeções dopaminérgicas da substância negra para os gânglios da base funcionam como o erro de predição.
  • A aprendizagem por reforço tem sido usada como parte do modelo de aprendizagem de habilidades humanas, especialmente em relação à interação entre aprendizagem implícita e explícita na aquisição de habilidades (a primeira publicação sobre esta aplicação foi em 1995-1996).
  • Controle centrado no ocupante
  • Negociação algorítmica e execução ideal [31]
  • Otimização de recursos computacionais [32] [33] [34]

Comparação de algoritmos de aprendizado por reforço

Algoritmo Descrição Política Espaço de ação Espaço de estado Operador
Monte Carlo Cada visita a Monte Carlo Qualquer Discreto Discreto Médias de amostra
Q-learning Estado-ação-recompensa-estado Fora da política Discreto Discreto Valor Q
SARS Estado-ação-recompensa-estado-ação De acordo com a política Discreto Discreto Valor Q
Q-learning - Lambda Estado-ação-recompensa-estado com rastreamentos de elegibilidade Fora da política Discreto Discreto Valor Q
SARSA - Lambda Estado–ação–recompensa–estado–ação com rastreamentos de elegibilidade De acordo com a política Discreto Discreto Valor Q
DQN Rede Q profunda Fora da política Discreto Contínuo Valor Q
DDPG Gradiente de política determinista profundo Fora da política Contínuo Contínuo Valor Q
A3C Algoritmo de ator-crítico de vantagem assíncrona De acordo com a política Contínuo Contínuo Vantagem
NAF Q-Learning com funções de vantagem normalizadas Fora da política Contínuo Contínuo Vantagem
TRPO Otimização da política da região de confiança De acordo com a política Contínuo Contínuo Vantagem
PPO Otimização de política proximal De acordo com a política Contínuo Contínuo Vantagem
TD3 Gradiente de política determinístico profundo com atraso duplo Fora da política Contínuo Contínuo Valor Q
SACO Ator-crítico suave Fora da política Contínuo Contínuo Vantagem

Aprendizado por reforço associativo

Tarefas de aprendizado por reforço associativo combinam facetas de tarefas de autômatos de aprendizado estocástico e tarefas de classificação de padrões de aprendizado supervisionado. Em tarefas de aprendizado por reforço associativo, o sistema de aprendizado interage em um circuito fechado com seu ambiente. [35]

Aprendizado por reforço profundo

Essa abordagem estende o aprendizado por reforço usando uma rede neural profunda e sem projetar explicitamente o espaço de estados. [36] O trabalho de aprendizado de jogos ATARI do Google DeepMind aumentou a atenção ao aprendizado por reforço profundo ou aprendizado por reforço de ponta a ponta . [37]

Aprendizado por reforço inverso

No aprendizado por reforço inverso (IRL), nenhuma função de recompensa é fornecida. Em vez disso, a função de recompensa é inferida a partir de um comportamento observado de um especialista. A ideia é imitar o comportamento observado, que geralmente é ótimo ou próximo ao ótimo. [38]

Aprendizado por reforço seguro

O aprendizado por reforço seguro (SRL) pode ser definido como o processo de aprendizado de políticas que maximizam a expectativa de retorno em problemas nos quais é importante garantir um desempenho razoável do sistema e/ou respeitar as restrições de segurança durante os processos de aprendizado e/ou implantação. [39]

Aprendizado por reforço parcialmente supervisionado (PSRL)

Nos algoritmos PSRL, as vantagens das abordagens supervisionadas e baseadas em RL são combinadas sinergicamente. Por exemplo, a política de controle aprendida por uma abordagem baseada em RNA inversa para controlar um sistema não linear pode ser refinada usando RL, evitando assim o custo computacional incorrido ao iniciar uma política aleatória em RL tradicional. Abordagens parcialmente supervisionadas podem aliviar a necessidade de dados de treinamento extensivos em aprendizado supervisionado, reduzindo a necessidade de exploração aleatória exaustiva e cara em RL puro. [2]

Veja também

Referências

  1. ^ Kaelbling, Leslie P .; Littman, Michael L .; Moore, Andrew W. (1996). "Aprendizagem por Reforço: Uma Pesquisa" . Jornal de Pesquisa em Inteligência Artificial . 4 : 237-285. arXiv : cs/9605103 . doi : 10.1613/jair.301 . S2CID  1708582 . Arquivado do original em 2001-11-20.
  2. ^ a b Pandian, B. Jaganatha; Noel, Matthew Mitra (2018-09-01). "Controle de um biorreator usando um novo algoritmo de aprendizado de reforço parcialmente supervisionado" . Jornal de Controle de Processos . 69 : 16–29. doi : 10.1016/j.jprocont.2018.07.013 . ISSN 0959-1524 . S2CID 126074778 .  
  3. ^ van Otterlo, M.; Wiering, M. (2012). Aprendizagem por reforço e processos de decisão markov . Aprendizagem por Reforço . Adaptação, Aprendizagem e Otimização. Vol. 12. pp. 3–42. doi : 10.1007/978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
  4. ^ Russell, Stuart J.; Norvig, Peter (2010). Inteligência artificial: uma abordagem moderna (Terceira ed.). Upper Saddle River, Nova Jersey. págs. 830, 831. ISBN 978-0-13-604259-4.
  5. ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 de julho de 2012). "Base Neural de Aprendizagem por Reforço e Tomada de Decisão" . Revisão Anual da Neurociência . 35 (1): 287–308. doi : 10.1146/annurev-neuro-062111-150512 . PMC 3490621 . PMID 22462543 .  
  6. ^ Xie, Zhaoming, et al. " ALLSTEPS: Aprendizagem de habilidades de trampolim orientada pelo currículo ." Fórum de Computação Gráfica. Vol. 39. Nº 8. 2020.
  7. ^ Sutton & Barto 1998 , Capítulo 11.
  8. ^ Gosavi, Abhijit (2003). Otimização Baseada em Simulação: Técnicas de Otimização Paramétrica e Reforço . Série de Interfaces de Pesquisa Operacional/Ciência da Computação. Springer. ISBN 978-1-4020-7454-7.
  9. ^ a b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Políticas adaptativas ideais para processos de decisão de Markov", Matemática da Pesquisa Operacional , 22 : 222–255, doi : 10.1287/moor.22.1.222
  10. ^ Tokic, Michel; Palm, Günther (2011), "Exploração Baseada em Diferença de Valor: Controle Adaptativo Entre Epsilon-Greedy e Softmax" (PDF) , KI 2011: Avanços em Inteligência Artificial , Notas de Palestra em Ciência da Computação, vol. 7006, Springer, pp. 335-346, ISBN  978-3-642-24455-1
  11. ^ a b "Aprendizagem de reforço: Uma introdução" (PDF) .
  12. ^ Sutton, Richard S. (1984). Atribuição de Crédito Temporal em Aprendizagem por Reforço (Tese de Doutoramento). Universidade de Massachusetts, Amherst, MA.
  13. ^ Sutton & Barto 1998 , §6. Aprendizagem por Diferença Temporal .
  14. ^ Bradtke, Steven J. ; Barto, Andrew G. (1996). "Aprendendo a prever pelo método das diferenças temporais". Aprendizado de Máquina . 22 : 33-57. CiteSeerX 10.1.1.143.857 . doi : 10.1023/A:1018056104778 . S2CID 20327856 .  
  15. ^ Watkins, Christopher JCH (1989). Aprendendo com recompensas atrasadas (PDF) (tese de doutorado). King's College, Cambridge, Reino Unido.
  16. ^ Williams, Ronald J. (1987). "Uma classe de algoritmos de estimativa de gradiente para aprendizado de reforço em redes neurais". Anais da IEEE First International Conference on Neural Networks . CiteSeerX 10.1.1.129.8871 . 
  17. ^ Peters, janeiro ; Vijayakumar, Sethu ; Schaal, Stefan (2003). "Aprendizagem de reforço para robótica humanóide" (PDF) . Conferência Internacional IEEE-RAS sobre Robôs Humanóides .
  18. ^ Deisenroth, Marc Peter ; Neumann, Gerhard ; Peters, janeiro (2013). Uma Pesquisa sobre Pesquisa de Políticas para Robótica (PDF) . Fundamentos e Tendências em Robótica. Vol. 2. AGORA Editores. pp. 1-142. doi : 10.1561/2300000021 . HD : 10044/1/12051 .
  19. ^ Juliani, Arthur (2016-12-17). "Aprendizagem por Reforço Simples com Tensorflow Parte 8: Agentes Atores Críticos Assíncronos (A3C)" . Médio . Recuperado 2018-02-22 .
  20. ^ Sutton, Richard (1990). "Arquiteturas Integradas para Aprendizagem, Planejamento e Reação baseadas em Programação Dinâmica". Machine Learning: Anais do Sétimo Workshop Internacional .
  21. ^ Lin, Long-Ji (1992). "Agentes reativos de auto-aperfeiçoamento baseados em aprendizado por reforço, planejamento e ensino". Aprendizado de máquina volume 8 .
  22. ^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "Quando usar modelos paramétricos no aprendizado por reforço?". Avanços em Sistemas de Processamento de Informação Neural 32 .
  23. ^ Riveret, Regis; Gao, Yang (2019). "Um quadro de argumentação probabilística para agentes de aprendizagem por reforço". Agentes Autônomos e Sistemas Multiagentes . 33 (1–2): 216–274. doi : 10.1007/s10458-019-09404-2 . S2CID 71147890 . 
  24. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Aprendizagem Hierárquica por Reforço Profundo: Integrando Abstração Temporal e Motivação Intrínseca" . Anais da 30ª Conferência Internacional sobre Sistemas de Processamento de Informação Neural . NIPS'16. EUA: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Bibcode : 2016arXiv160406057K . ISBN 978-1-5108-3881-9.
  25. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Mapas auto-organizados para armazenamento e transferência de conhecimento na aprendizagem por reforço". Comportamento Adaptativo . 27 (2): 111–126. arXiv : 1811.08318 . doi : 10.1177/1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .  
  26. ^ "Sobre o uso do aprendizado por reforço para testar mecânicas de jogos: ACM - Computadores em entretenimento" . cie.acm.org . Recuperado 2018-11-27 .
  27. ^ Kaplan, F.; Oudeyer, P. (2004). "Maximizando o progresso da aprendizagem: um sistema de recompensa interna para o desenvolvimento". Em Iida, F.; Pfeifer, R.; Aços, L.; Kuniyoshi, Y. (eds.). Inteligência Artificial Incorporada . Notas de aula em Ciência da Computação. Vol. 3139. Berlim; Heidelberg: Springer. págs. 259-270. doi : 10.1007/978-3-540-27833-7_19 . ISBN 978-3-540-22484-6.
  28. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Mantenha suas opções abertas: um princípio de condução baseado em informações para sistemas sensório-motores" . PLO UM . 3 (12): e4018. Bibcode : 2008PLoSO...3.4018K . doi : 10.1371/journal.pone.0004018 . PMC 2607028 . PMID 19107219 .  
  29. ^ Barto, AG (2013). "Motivação intrínseca e aprendizagem por reforço". Aprendizagem Intrinsecamente Motivada em Sistemas Naturais e Artificiais . Berlim; Heidelberg: Springer. págs. 17–47.
  30. ^ "Aprendizagem do reforço/sucessos da aprendizagem do reforço" . umichrl.pbworks . com . Recuperado 2017-08-06 .
  31. ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Execução Profunda - Aprendizado de Reforço Baseado em Valor e Política para Negociar e Superar os Benchmarks de Mercado" . O Jornal de Aprendizado de Máquina em Finanças . 1 .
  32. ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (março de 2020). "Aprendizagem de Reforço Consciente da Interação do Usuário para Eficiência Energética e Térmica de MPSoCs Móveis CPU-GPU" . 2020 Design, Automation Test in Europe Conference Exhibition (DATA) : 1728–1733. doi : 10.23919/DATE48585.2020.9116294 . ISBN 978-3-9819263-4-7. S2CID  219858480 .
  33. ^ Questionado, Tony. "Os smartphones ficam mais inteligentes com a inovação da Essex | Business Weekly | Notícias de tecnologia | Notícias de negócios | Cambridge e o leste da Inglaterra" . www.businessweekly.co.uk . Recuperado 2021-06-17 .{{cite web}}: CS1 maint: url-status (link)
  34. ^ Williams, Rhiannon (2020-07-21). "Os smartphones do futuro 'prolongarão a vida útil da bateria, monitorando o comportamento dos proprietários'" . i . Recuperado em 17/06/2021 .{{cite web}}: CS1 maint: url-status (link)
  35. ^ Soucek, Branko (6 de maio de 1992). Programação Dinâmica, Genética e Caótica: A Série de Tecnologia de Computadores de Sexta Geração . John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
  36. ^ François-Lavet, Vincent; et ai. (2018). "Uma Introdução ao Aprendizado por Reforço Profundo". Fundamentos e Tendências em Aprendizado de Máquina . 11 (3–4): 219–354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 . 
  37. ^ Mnih, Volodymyr; et ai. (2015). "Controle em nível humano por meio de aprendizado de reforço profundo" . Natureza . 518 (7540): 529-533. Bibcode : 2015Natur.518..529M . doi : 10.1038/nature14236 . PMID 25719670 . S2CID 205242740 .  
  38. ^ Ng, AY; Russel, SJ (2000). "Algoritmos para Aprendizagem por Reforço Inverso" (PDF) . Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning . págs. 663-670. ISBN  1-55860-707-2.
  39. ^ Garcia, Javier; Fernández, Fernando (1 de janeiro de 2015). "Uma pesquisa abrangente sobre aprendizado por reforço seguro" (PDF) . O Journal of Machine Learning Research . 16 (1): 1437-1480.

Leitura adicional

Links externos