Aprendizagem por reforço

O aprendizado por reforço ( RL ) é uma área interdisciplinar de aprendizado de máquina e controle ideal que se preocupa em como um agente inteligente deve realizar ações em um ambiente dinâmico para maximizar a recompensa cumulativa . O aprendizado por reforço é um dos três paradigmas básicos de aprendizado de máquina , junto com o aprendizado supervisionado e o aprendizado não supervisionado .

A aprendizagem por reforço difere da aprendizagem supervisionada por não precisar que pares rotulados de entrada/saída sejam apresentados e por não precisar que ações abaixo do ideal sejam explicitamente corrigidas. Em vez disso, o foco está em encontrar um equilíbrio entre a exploração (de território desconhecido) e a exploração (do conhecimento atual) com o objetivo de maximizar a recompensa a longo prazo, cujo feedback pode ser incompleto ou atrasado. [1]

O ambiente é normalmente declarado na forma de um processo de decisão de Markov (MDP), porque muitos algoritmos de aprendizagem por reforço para este contexto usam técnicas de programação dinâmica . [2] A principal diferença entre os métodos clássicos de programação dinâmica e os algoritmos de aprendizagem por reforço é que estes últimos não assumem o conhecimento de um modelo matemático exato do processo de decisão de Markov e têm como alvo grandes processos de decisão de Markov onde os métodos exatos se tornam inviáveis. [3]

Introdução

O enquadramento típico de um cenário de Aprendizagem por Reforço (RL): um agente realiza ações em um ambiente, que é interpretado como uma recompensa e uma representação do estado, que são realimentadas no agente.

Devido à sua generalidade, a aprendizagem por reforço é estudada em muitas disciplinas, como teoria dos jogos , teoria de controle , pesquisa operacional , teoria da informação , otimização baseada em simulação , sistemas multiagentes , inteligência de enxame e estatística . Na literatura de pesquisa operacional e controle, o aprendizado por reforço é chamado de programação dinâmica aproximada ou programação neurodinâmica. Os problemas de interesse na aprendizagem por reforço também foram estudados na teoria do controle ótimo , que se preocupa principalmente com a existência e caracterização de soluções ótimas, e algoritmos para seu cálculo exato, e menos com aprendizagem ou aproximação, particularmente na ausência de um modelo matemático do meio ambiente.

A aprendizagem por reforço básico é modelada como um processo de decisão de Markov :

  • um conjunto de estados de ambiente e agente ;
  • um conjunto de ações, do agente;
  • , a probabilidade de transição (no momento ) de estado para estado sob ação .
  • , a recompensa imediata após a transição de para com ação .

O objetivo da aprendizagem por reforço é que o agente aprenda uma política ótima, ou quase ótima, que maximize a "função de recompensa" ou outro sinal de reforço fornecido pelo usuário que se acumula a partir das recompensas imediatas. Isto é semelhante aos processos que parecem ocorrer na psicologia animal. Por exemplo, os cérebros biológicos estão programados para interpretar sinais como dor e fome como reforços negativos e interpretar o prazer e a ingestão de alimentos como reforços positivos. Em algumas circunstâncias, os animais podem aprender a adotar comportamentos que otimizam essas recompensas. Isto sugere que os animais são capazes de aprendizagem por reforço. [4] [5]

Um agente básico de aprendizagem por reforço AI interage com seu ambiente em etapas de tempo discretas. A cada tempo t , o agente recebe o estado atual e a recompensa . Em seguida, escolhe uma ação do conjunto de ações disponíveis, que posteriormente é enviada ao ambiente. O ambiente passa para um novo estado e a recompensa associada à transição é determinada. O objetivo de um agente de aprendizagem por reforço é aprender uma política :, que maximize a recompensa cumulativa esperada.

Formular o problema como um processo de decisão de Markov pressupõe que o agente observa diretamente o estado ambiental atual; neste caso diz-se que o problema tem observabilidade total . Se o agente tiver acesso apenas a um subconjunto de estados, ou se os estados observados estiverem corrompidos por ruído, diz-se que o agente tem observabilidade parcial , e formalmente o problema deve ser formulado como um processo de decisão de Markov parcialmente observável . Em ambos os casos, o conjunto de ações disponíveis ao agente pode ser restrito. Por exemplo, o estado do saldo de uma conta pode ser restringido a positivo; se o valor atual do estado for 3 e a transição de estado tentar reduzir o valor em 4, a transição não será permitida.

Quando o desempenho do agente é comparado ao de um agente que atua de forma otimizada, a diferença no desempenho dá origem à noção de arrependimento . Para agir de forma quase óptima, o agente deve raciocinar sobre as consequências a longo prazo das suas acções (ou seja, maximizar o rendimento futuro), embora a recompensa imediata associada a isto possa ser negativa.

Assim, a aprendizagem por reforço é particularmente adequada para problemas que incluem uma compensação de recompensa de longo prazo versus recompensa de curto prazo. Ele foi aplicado com sucesso a vários problemas, incluindo operação de armazenamento de energia, [6] controle de robôs, [7] despacho de geradores fotovoltaicos, [8] gamão , damas , [9] Go ( AlphaGo ) e sistemas de direção autônomos. [10]

Dois elementos tornam o aprendizado por reforço poderoso: o uso de amostras para otimizar o desempenho e o uso de aproximação de função para lidar com ambientes grandes. Graças a estes dois componentes principais, a aprendizagem por reforço pode ser usada em grandes ambientes nas seguintes situações:

  • Um modelo do ambiente é conhecido, mas uma solução analítica não está disponível;
  • Apenas um modelo de simulação do ambiente é fornecido (tema de otimização baseada em simulação ); [11]
  • A única maneira de coletar informações sobre o meio ambiente é interagir com ele.

Os dois primeiros destes problemas poderiam ser considerados problemas de planeamento (uma vez que existe algum tipo de modelo disponível), enquanto o último poderia ser considerado um verdadeiro problema de aprendizagem. No entanto, o aprendizado por reforço converte ambos os problemas de planejamento em problemas de aprendizado de máquina .

Exploração

O trade-off exploração versus exploração foi estudado mais detalhadamente através do problema do bandido multi-armado e para processos de decisão de Markov em espaços de estados finitos em Burnetas e Katehakis (1997). [12]

A aprendizagem por reforço requer mecanismos de exploração inteligentes; selecionar ações aleatoriamente, sem referência a uma distribuição de probabilidade estimada, mostra um desempenho ruim. O caso de (pequenos) processos de decisão finitos de Markov é relativamente bem compreendido. No entanto, devido à falta de algoritmos que escalem bem com o número de estados (ou escalem para problemas com espaços de estados infinitos), métodos simples de exploração são os mais práticos.

Um desses métodos é o -greedy, onde é um parâmetro que controla a quantidade de exploração versus exploração. Com probabilidade , a exploração é escolhida e o agente escolhe a ação que acredita ter o melhor efeito a longo prazo (os laços entre as ações são quebrados de maneira uniforme e aleatória). Alternativamente, com probabilidade , a exploração é escolhida e a ação é escolhida uniformemente ao acaso. geralmente é um parâmetro fixo, mas pode ser ajustado de acordo com um cronograma (fazendo com que o agente explore cada vez menos) ou de forma adaptativa com base em heurísticas. [13]

Algoritmos para aprendizagem de controle

Mesmo que a questão da exploração seja desconsiderada e mesmo que o estado fosse observável (assumido daqui em diante), permanece o problema de usar a experiência passada para descobrir quais ações levam a recompensas cumulativas mais elevadas.

Critério de otimalidade

Política

A seleção de ações do agente é modelada como um mapa denominado política :

O mapa de políticas dá a probabilidade de tomar medidas quando se está no estado . [14] : 61  Existem também políticas determinísticas.

Função de valor de estado

A função estado-valor é definida como retorno esperado descontado começando com estado , ou seja , e seguindo sucessivamente a política . Conseqüentemente, grosso modo, a função de valor estima “quão bom” é estar em um determinado estado. [14] : 60 

onde a variável aleatória denota o retorno descontado e é definida como a soma das recompensas descontadas futuras:

onde está a recompensa pela transição de estado para , é a taxa de desconto . é menor que 1, portanto, as recompensas no futuro distante têm um peso menor do que as recompensas no futuro imediato.

O algoritmo deve encontrar uma política com retorno descontado máximo esperado. A partir da teoria dos processos de decisão de Markov sabe-se que, sem perda de generalidade, a busca pode ser restrita ao conjunto das chamadas políticas estacionárias . Uma política é estacionária se a distribuição de ações por ela retornada depende apenas do último estado visitado (do histórico do agente observador). A pesquisa pode ser ainda mais restrita a políticas estacionárias determinísticas . Uma política estacionária determinística seleciona deterministicamente ações com base no estado atual. Dado que qualquer política deste tipo pode ser identificada com um mapeamento do conjunto de estados para o conjunto de acções, estas políticas podem ser identificadas com tais mapeamentos sem perda de generalidade.

Força bruta

A abordagem de força bruta envolve duas etapas:

  • Para cada política possível, exemplos de retornos ao segui-la
  • Escolha a apólice com o maior retorno com desconto esperado

Um problema com isto é que o número de políticas pode ser grande, ou mesmo infinito. Outra é que a variância dos retornos pode ser grande, o que requer muitas amostras para estimar com precisão o retorno descontado de cada apólice.

Estes problemas podem ser melhorados se assumirmos alguma estrutura e permitirmos que amostras geradas a partir de uma política influenciem as estimativas feitas para outras. As duas principais abordagens para alcançar isto são a estimativa da função de valor e a busca direta de políticas.

Função de valor

As abordagens da função de valor tentam encontrar uma política que maximize o retorno descontado, mantendo um conjunto de estimativas de retornos descontados esperados para alguma política (geralmente a "atual" [na política] ou a ótima [fora da política]).

Estes métodos baseiam-se na teoria dos processos de decisão de Markov, onde a otimalidade é definida num sentido mais forte do que o acima: Uma política é ótima se atinge o retorno descontado mais esperado de qualquer estado inicial (ou seja, as distribuições iniciais não desempenham nenhum papel na esta definição). Mais uma vez, uma política óptima pode sempre ser encontrada entre políticas estacionárias.

Para definir a otimalidade de maneira formal, defina o valor do estado de uma política por

onde representa o retorno descontado associado ao seguimento do estado inicial . Definindo como o valor de estado máximo possível de , onde é permitido alterar,

Uma política que atinge esses valores de estado ideais em cada estado é chamada de ótima . Claramente, uma política que é ótima neste sentido forte também é ótima no sentido de que maximiza o retorno descontado esperado , uma vez que , onde é um estado amostrado aleatoriamente a partir da distribuição dos estados iniciais (então ).

Embora os valores de estado sejam suficientes para definir a otimalidade, é útil definir valores de ação. Dado um estado , uma ação e uma política , o valor da ação do par abaixo é definido por

onde now representa o retorno descontado aleatório associado à primeira ação no estado e à sequência , a partir de então.

A teoria dos processos de decisão de Markov afirma que se for uma política ótima, agimos de forma otimizada (realizamos a ação ótima) escolhendo a ação com o valor de ação mais alto em cada estado ,. A função de valor de ação de tal política ótima ( ) é chamada de função de valor de ação ótima e é comumente denotada por . Em resumo, o conhecimento da função óptima de valor de acção por si só é suficiente para saber como agir de forma óptima.

Assumindo pleno conhecimento do processo de decisão de Markov, as duas abordagens básicas para calcular a função valor-ação ideal são a iteração de valor e a iteração de política . Ambos os algoritmos calculam uma sequência de funções ( ) que convergem para . O cálculo dessas funções envolve o cálculo de expectativas em todo o espaço de estados, o que é impraticável para todos, exceto os menores (finitos) processos de decisão de Markov. Nos métodos de aprendizagem por reforço, as expectativas são aproximadas pela média das amostras e pelo uso de técnicas de aproximação de funções para lidar com a necessidade de representar funções de valor em grandes espaços de ação de estado.

Métodos de Monte Carlo

Os métodos de Monte Carlo podem ser usados ​​em um algoritmo que imita a iteração de políticas. A iteração de políticas consiste em duas etapas: avaliação de políticas e melhoria de políticas .

Monte Carlo é usado na etapa de avaliação de políticas. Nesta etapa, dada uma política estacionária e determinística , o objetivo é calcular os valores da função (ou uma boa aproximação deles) para todos os pares estado-ação . Suponha (para simplificar) que o processo de decisão de Markov é finito, que há memória suficiente disponível para acomodar os valores de ação e que o problema é episódico e após cada episódio um novo começa a partir de algum estado inicial aleatório. Então, a estimativa do valor de um determinado par estado-ação pode ser calculada calculando a média dos retornos amostrados originados ao longo do tempo. Com tempo suficiente, este procedimento pode, portanto, construir uma estimativa precisa da função valor-ação . Isto conclui a descrição da etapa de avaliação da política.

Na etapa de melhoria da política, a próxima política é obtida calculando uma política gananciosa em relação a : Dado um estado , esta nova política retorna uma ação que maximiza . Na prática, a avaliação preguiçosa pode adiar o cálculo das ações de maximização para quando elas forem necessárias.

Os problemas com este procedimento incluem:

  1. O procedimento pode gastar muito tempo avaliando uma política abaixo do ideal.
  2. Ele usa amostras de forma ineficiente, pois uma trajetória longa melhora a estimativa apenas do único par estado-ação que iniciou a trajetória.
  3. Quando os retornos ao longo das trajetórias apresentam alta variância , a convergência é lenta.
  4. Funciona apenas em problemas episódicos .
  5. Funciona apenas em processos de decisão de Markov pequenos e finitos.

Métodos de diferença temporal

O primeiro problema é corrigido permitindo que o procedimento altere a política (em alguns ou todos os estados) antes que os valores sejam estabilizados. Isto também pode ser problemático, pois pode impedir a convergência. A maioria dos algoritmos atuais faz isso, dando origem à classe de algoritmos generalizados de iteração de políticas . Muitos métodos ator-críticos pertencem a esta categoria.

A segunda questão pode ser corrigida permitindo que as trajetórias contribuam para qualquer par estado-ação nelas contido. Isto também pode ajudar até certo ponto com o terceiro problema, embora uma solução melhor quando os retornos têm alta variância sejam os métodos de diferença temporal (TD) de Sutton que são baseados na equação recursiva de Bellman . [15] [16] O cálculo nos métodos TD pode ser incremental (quando após cada transição a memória é alterada e a transição é descartada) ou em lote (quando as transições são agrupadas e as estimativas são calculadas uma vez com base no lote) . Métodos em lote, como o método de diferença temporal de mínimos quadrados, [17] podem usar melhor as informações nas amostras, enquanto os métodos incrementais são a única escolha quando os métodos em lote são inviáveis ​​devido à sua alta complexidade computacional ou de memória. Alguns métodos tentam combinar as duas abordagens. Métodos baseados em diferenças temporais também superam a quarta questão.

Outro problema específico do TD vem da confiança na equação recursiva de Bellman. A maioria dos métodos TD tem um chamado parâmetro que pode interpolar continuamente entre os métodos de Monte Carlo que não dependem das equações de Bellman e os métodos TD básicos que dependem inteiramente das equações de Bellman. Isso pode ser eficaz para atenuar esse problema.

Métodos de aproximação de função

Para resolver a quinta questão, são utilizados métodos de aproximação de funções . A aproximação de função linear começa com um mapeamento que atribui um vetor de dimensão finita a cada par estado-ação. Então, os valores de ação de um par estado-ação são obtidos combinando linearmente os componentes com alguns pesos :

Os algoritmos então ajustam os pesos, em vez de ajustar os valores associados aos pares individuais de estado-ação. Métodos baseados em ideias de estatísticas não paramétricas (que podem construir seus próprios recursos) foram explorados.

A iteração de valores também pode ser usada como ponto de partida, dando origem ao algoritmo Q-learning e suas muitas variantes. [18] Incluindo métodos Deep Q-learning quando uma rede neural é usada para representar Q, com diversas aplicações em problemas de busca estocástica. [19]

O problema com o uso de valores de ação é que eles podem precisar de estimativas altamente precisas dos valores de ação concorrentes que podem ser difíceis de obter quando os retornos são ruidosos, embora este problema seja mitigado até certo ponto pelos métodos de diferença temporal. Usar o chamado método de aproximação de função compatível compromete a generalidade e a eficiência.

Pesquisa direta de política

Um método alternativo é pesquisar diretamente em (algum subconjunto) do espaço político, caso em que o problema se torna um caso de otimização estocástica . As duas abordagens disponíveis são métodos baseados em gradiente e métodos livres de gradiente.

Os métodos baseados em gradiente ( métodos de gradiente de política ) começam com um mapeamento de um espaço (parâmetro) de dimensão finita para o espaço de políticas: dado o vetor de parâmetro , vamos denotar a política associada a . Definindo a função de desempenho em condições amenas, esta função será diferenciável como uma função do vetor de parâmetros . Se o gradiente fosse conhecido, poderia-se usar a subida do gradiente . Como uma expressão analítica para o gradiente não está disponível, apenas uma estimativa com ruído está disponível. Tal estimativa pode ser construída de várias maneiras, dando origem a algoritmos como o método REINFORCE de Williams [20] (que é conhecido como método da razão de verossimilhança na literatura de otimização baseada em simulação ). [21]

Uma grande classe de métodos evita depender de informações de gradiente. Estes incluem recozimento simulado , pesquisa de entropia cruzada ou métodos de computação evolutiva . Muitos métodos livres de gradiente podem alcançar (em teoria e no limite) um ótimo global.

Os métodos de pesquisa de políticas podem convergir lentamente devido a dados ruidosos. Por exemplo, isto acontece em problemas episódicos quando as trajetórias são longas e a variância dos retornos é grande. Métodos baseados em funções de valor que dependem de diferenças temporais podem ajudar neste caso. Nos últimos anos, métodos de ator-crítico foram propostos e tiveram bom desempenho em vários problemas. [22]

Métodos de busca de políticas têm sido usados ​​no contexto da robótica . [23] Muitos métodos de pesquisa de políticas podem ficar presos em ótimos locais (pois são baseados na pesquisa local ).

Algoritmos baseados em modelo

Finalmente, todos os métodos acima podem ser combinados com algoritmos que primeiro aprendem um modelo do Processo de Decisão de Markov , a probabilidade de cada próximo estado dada uma ação realizada a partir de um estado existente. Por exemplo, o algoritmo Dyna [24] aprende um modelo com a experiência e usa isso para fornecer mais transições modeladas para uma função de valor, além das transições reais. Tais métodos podem às vezes ser estendidos para o uso de modelos não paramétricos, como quando as transições são simplesmente armazenadas e 'repetidas' [25] para o algoritmo de aprendizagem.

Os métodos baseados em modelos podem ser mais intensivos computacionalmente do que as abordagens sem modelos, e sua utilidade pode ser limitada pela extensão em que o Processo de Decisão de Markov pode ser aprendido. [26]

Existem outras maneiras de usar modelos além de atualizar uma função de valor. [27] Por exemplo, no controle preditivo de modelo, o modelo é usado para atualizar o comportamento diretamente.

Teoria

Tanto o comportamento assintótico quanto o de amostra finita da maioria dos algoritmos são bem compreendidos. São conhecidos algoritmos com desempenho online comprovadamente bom (abordando o problema de exploração).

A exploração eficiente dos processos de decisão de Markov é apresentada em Burnetas e Katehakis (1997). [12] Limites de desempenho em tempo finito também apareceram para muitos algoritmos, mas espera-se que esses limites sejam bastante vagos e, portanto, é necessário mais trabalho para compreender melhor as vantagens e limitações relativas.

Para algoritmos incrementais, os problemas de convergência assintótica foram resolvidos [ esclarecimento necessário ] . Algoritmos baseados em diferenças temporais convergem sob um conjunto mais amplo de condições do que era possível anteriormente (por exemplo, quando usados ​​com aproximação de função suave e arbitrária).

Pesquisar

Os tópicos de pesquisa incluem:

  • arquitetura ator-crítico
  • arquitetura ator-crítico-cenário [3]
  • métodos adaptativos que funcionam com menos (ou nenhum) parâmetro sob um grande número de condições
  • detecção de bugs em projetos de software [28]
  • aprendizado contínuo
  • combinações com estruturas baseadas em lógica [29]
  • exploração em grandes processos de decisão de Markov
  • feedback humano [30]
  • interação entre aprendizagem implícita e explícita na aquisição de habilidades
  • motivação intrínseca que diferencia comportamentos de busca de informação e curiosidade de comportamentos dependentes de tarefas e direcionados a objetivos avaliações empíricas em larga escala
  • espaços de ação grandes (ou contínuos)
  • aprendizagem por reforço modular e hierárquica [31]
  • aprendizagem por reforço multiagente/distribuída é um tópico de interesse. As aplicações estão se expandindo. [32]
  • controle centrado no ocupante
  • otimização de recursos computacionais [33] [34] [35]
  • informações parciais (por exemplo, usando representação de estado preditiva )
  • função de recompensa baseada na maximização de novas informações [36] [37] [38]
  • planejamento baseado em amostra (por exemplo, baseado na pesquisa de árvores de Monte Carlo ).
  • negociação de valores mobiliários [39]
  • transferir aprendizagem [40]
  • Aprendizagem TD modelando a aprendizagem baseada em dopamina no cérebro. As projeções dopaminérgicas da substância negra para a função dos gânglios da base são o erro de predição.
  • métodos de função de valor e pesquisa de política

Comparação dos principais algoritmos

Algoritmo Descrição Política Espaço de ação Espaço de estado Operador
Monte Carlo Cada visita a Monte Carlo Qualquer Discreto Discreto Médias amostrais de valores de estado ou valores de ação
Aprendizagem de DT Estado-ação-recompensa-estado Fora da política Discreto Discreto Valor do estado
Q-aprendizagem Estado-ação-recompensa-estado Fora da política Discreto Discreto Valor de ação
SARS Estado-ação-recompensa-estado-ação Dentro da política Discreto Discreto Valor de ação
DQN Rede Q Profunda Fora da política Discreto Contínuo Valor de ação
DDPG Gradiente de política determinística profunda Fora da política Contínuo Contínuo Valor de ação
A3C Algoritmo Ator-Crítico de Vantagem Assíncrona Dentro da política Discreto Contínuo Vantagem (=valor de ação - valor de estado)
TRPO Otimização de política de região de confiança Dentro da política Contínuo ou Discreto Contínuo Vantagem
PPO Otimização de Política Proximal Dentro da política Contínuo ou Discreto Contínuo Vantagem
TD3 Gradiente de política determinística profunda e atrasada dupla Fora da política Contínuo Contínuo Valor de ação
SACO Ator-crítico suave Fora da política Contínuo Contínuo Vantagem
DSAC [41] [42] [43] Crítico de ator suave distributivo Fora da política Contínuo Contínuo Distribuição de valor de ação

Aprendizagem por reforço associativo

As tarefas de aprendizagem por reforço associativo combinam facetas de tarefas de autômatos de aprendizagem estocástica e tarefas de classificação de padrões de aprendizagem supervisionada. Em tarefas de aprendizagem por reforço associativo, o sistema de aprendizagem interage em circuito fechado com seu ambiente. [44]

Aprendizagem por reforço profundo

Esta abordagem estende o aprendizado por reforço usando uma rede neural profunda e sem projetar explicitamente o espaço de estados. [45] O trabalho de aprendizagem de jogos ATARI do Google DeepMind aumentou a atenção ao aprendizado por reforço profundo ou ao aprendizado por reforço de ponta a ponta . [46]

Aprendizagem por reforço profundo adversário

A aprendizagem por reforço profundo adversário é uma área ativa de pesquisa em aprendizagem por reforço com foco nas vulnerabilidades das políticas aprendidas. Nesta área de pesquisa, alguns estudos mostraram inicialmente que as políticas de aprendizagem por reforço são suscetíveis a manipulações adversárias imperceptíveis. [47] [48] [49] Embora alguns métodos tenham sido propostos para superar essas suscetibilidades, nos estudos mais recentes foi demonstrado que essas soluções propostas estão longe de fornecer uma representação precisa das vulnerabilidades atuais das políticas de aprendizagem por reforço profundo. [50]

Aprendizagem por reforço difuso

Ao introduzir a inferência difusa na aprendizagem por reforço, [51] torna-se possível aproximar a função de valor de ação de estado com regras difusas no espaço contínuo. A forma SE - ENTÃO das regras difusas torna esta abordagem adequada para expressar os resultados de uma forma próxima à linguagem natural. Estender FRL com interpolação de regras difusas [52] permite o uso de bases de regras difusas esparsas de tamanho reduzido para enfatizar regras cardinais (valores de ação de estado mais importantes).

Aprendizagem por reforço inverso

Na aprendizagem por reforço inverso (IRL), nenhuma função de recompensa é fornecida. Em vez disso, a função de recompensa é inferida a partir de um comportamento observado por um especialista. A ideia é imitar o comportamento observado, que muitas vezes é ideal ou próximo do ideal. [53] Um paradigma IRL popular é denominado aprendizagem por reforço inverso de entropia máxima (MaxEnt IRL). [54] MaxEnt IRL estima os parâmetros de um modelo linear da função de recompensa maximizando a entropia da distribuição de probabilidade de trajetórias observadas sujeitas a restrições relacionadas à correspondência de contagens de características esperadas. Recentemente foi demonstrado que MaxEnt IRL é um caso particular de uma estrutura mais geral denominada aprendizagem por reforço inverso de utilidade aleatória (RU-IRL). [55] RU-IRL é baseado na teoria da utilidade aleatória e nos processos de decisão de Markov. Enquanto as abordagens IRL anteriores assumem que o comportamento aleatório aparente de um agente observado se deve ao fato de ele seguir uma política aleatória, RU-IRL assume que o agente observado segue uma política determinística, mas a aleatoriedade no comportamento observado se deve ao fato de que um observador só tem acesso parcial aos recursos que o agente observado utiliza na tomada de decisão. A função de utilidade é modelada como uma variável aleatória para explicar a ignorância do observador em relação às características que o agente observado realmente considera em sua função de utilidade.

Aprendizagem por reforço seguro

A aprendizagem por reforço seguro (SRL) pode ser definida como o processo de políticas de aprendizagem que maximizam a expectativa de retorno em problemas nos quais é importante garantir um desempenho razoável do sistema e/ou respeitar as restrições de segurança durante os processos de aprendizagem e/ou implantação. [56]

Veja também

Referências

  1. ^ Kaelbling, Leslie P .; Littman, Michael L .; Moore, Andrew W. (1996). "Aprendizagem por reforço: uma pesquisa". Jornal de Pesquisa em Inteligência Artificial . 4 : 237–285. arXiv : cs/9605103 . doi :10.1613/jair.301. S2CID  1708582. Arquivado do original em 20/11/2001.
  2. ^ camionete Otterlo, M.; Wiering, M. (2012). "Aprendizagem por Reforço e Processos de Decisão de Markov". Aprendizagem por Reforço . Adaptação, aprendizagem e otimização. Vol. 3–42. doi :10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ ABCD Li, Shengbo (2023). Aprendizagem por reforço para decisão sequencial e controle ideal (primeira edição). Springer Verlag, Singapura. páginas 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID257928563  .{{cite book}}: CS1 maint: location missing publisher (link)
  4. ^ Russel, Stuart J.; Norvig, Pedro (2010). Inteligência artificial: uma abordagem moderna (Terceira ed.). Upper Saddle River, Nova Jersey. páginas 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  5. ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 de julho de 2012). "Base Neural de Aprendizagem por Reforço e Tomada de Decisão". Revisão Anual de Neurociências . 35 (1): 287–308. doi :10.1146/annurev-neuro-062111-150512. PMC3490621 .PMID22462543  . 
  6. ^ Salazar Duque, Edgar Maurício; Giraldo, Juan S.; Vergara, Pedro P.; Nguyen, Phuong; Van Der Molen, Anne; Slootweg, Han (2022). “Operação de armazenamento comunitário de energia por meio de aprendizagem por reforço com traços de elegibilidade” . Pesquisa em Sistemas Elétricos de Potência . 212 . doi : 10.1016/j.epsr.2022.108515 . S2CID250635151  .
  7. ^ Xie, Zhaoming; Pendurado Yu Ling; Nam Hee Kim; Michiel van de Panne (2020). "ALLSTEPS: Aprendizagem de habilidades de trampolim orientada pelo currículo" . arXiv : 2005.04323 [cs.GR].
  8. ^ Vergara, Pedro P.; Salazar, Maurício; Giraldo, Juan S.; Palensky, Pedro (2022). "Despacho ideal de inversores fotovoltaicos em sistemas de distribuição desequilibrados usando Reinforcement Learning". Jornal Internacional de Energia Elétrica e Sistemas de Energia . 136 . doi : 10.1016/j.ijepes.2021.107628 . S2CID244099841  .
  9. ^ Sutton & Barto 2018, Capítulo 11.
  10. ^ Ren, Yangang; Jiang, Jianhua; Zhan, Guojian; Li, Shengbo Eben; Chen, Chen; Li, Keqiang; Duan, Jingliang (2022). "Inteligência autoaprendida para decisão e controle integrados de veículos automatizados em cruzamentos sinalizados". Transações IEEE em Sistemas de Transporte Inteligentes . 23 (12): 24145–24156. arXiv : 2110.12359 . doi :10.1109/TITS.2022.3196167.
  11. ^ Gosavi, Abhijit (2003). Otimização baseada em simulação: técnicas de otimização paramétrica e reforço. Série de interfaces de pesquisa operacional/ciência da computação. Springer. ISBN 978-1-4020-7454-7.
  12. ^ ab Burnetas, Apóstolos N.; Katehakis, Michael N. (1997), "Políticas adaptativas ideais para processos de decisão de Markov", Mathematics of Operations Research , 22 (1): 222–255, doi :10.1287/moor.22.1.222, JSTOR  3690147
  13. ^ Tokic, Michel; Palm, Günther (2011), "Exploração baseada em diferença de valor: controle adaptativo entre Epsilon-Greedy e Softmax" (PDF) , KI 2011: Avanços em Inteligência Artificial , Notas de aula em Ciência da Computação, vol. 7006, Springer, pp . 978-3-642-24455-1
  14. ^ ab "Aprendizagem por reforço: uma introdução" (PDF) . Arquivado do original (PDF) em 12/07/2017 . Recuperado em 23/07/2017 .
  15. ^ Sutton, Richard S. (1984). Atribuição de Crédito Temporal em Aprendizagem por Reforço (tese de doutorado). Universidade de Massachusetts, Amherst, MA. Arquivado do original em 30/03/2017 . Recuperado em 29/03/2017 .
  16. ^ Sutton e Barto 2018, §6. Aprendizagem de diferença temporal.
  17. ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Aprendendo a prever pelo método das diferenças temporais”. Aprendizado de máquina . 22 :33–57. CiteSeerX 10.1.1.143.857 . doi :10.1023/A:1018056104778. S2CID20327856  . 
  18. ^ Watkins, Christopher JCH (1989). Aprendendo com recompensas atrasadas (PDF) (tese de doutorado). King's College, Cambridge, Reino Unido.
  19. ^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Eugene (2022). "Detecção de alvos estáticos e móveis por um agente autônomo com profundas habilidades de Q-Learning". Entropia . 24 (8): 1168. Bibcode :2022Entrp..24.1168M. doi : 10.3390/e24081168 . PMC 9407070 . PMID36010832  . 
  20. ^ Williams, Ronald J. (1987). "Uma classe de algoritmos de estimativa de gradiente para aprendizagem por reforço em redes neurais". Anais da Primeira Conferência Internacional IEEE sobre Redes Neurais . CiteSeerX 10.1.1.129.8871 . 
  21. ^ Peters, janeiro ; Vijayakumar, Sethu ; Schaal, Stefan (2003). Aprendizado por reforço para robótica humanóide (PDF) . Conferência Internacional IEEE-RAS sobre Robôs Humanóides. Arquivado do original (PDF) em 12/05/2013.
  22. ^ Juliani, Arthur (17/12/2016). "Aprendizagem por reforço simples com Tensorflow Parte 8: Agentes assíncronos ator-crítico (A3C)". Médio . Recuperado em 22/02/2018 .
  23. ^ Deisenroth, Marc Peter; Neumann, Gerhard ; Peters, janeiro (2013). Uma pesquisa sobre pesquisa de políticas para robótica (PDF) . Fundamentos e Tendências em Robótica. Vol. 2. AGORA Editores. páginas 1–142. doi :10.1561/2300000021. hdl : 10044/1/12051.
  24. ^ Sutton, Richard (1990). "Arquiteturas Integradas para Aprendizagem, Planejamento e Reação Baseadas em Programação Dinâmica". Aprendizado de Máquina: Anais do Sétimo Workshop Internacional .
  25. ^ Lin, Long-Ji (1992). "Agentes reativos de autoaperfeiçoamento baseados em aprendizagem, planejamento e ensino por reforço" (PDF) . Volume 8 de aprendizado de máquina . doi :10.1007/BF00992699.
  26. ^ Zou, Lan (2023-01-01), Zou, Lan (ed.), "Capítulo 7 - Aprendizagem por meta-reforço", Meta -Learning , Academic Press, pp . -323-89931-4.00011-0, ISBN 978-0-323-89931-4, recuperado em 08/11/2023
  27. ^ camionete Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). “Quando usar modelos paramétricos na aprendizagem por reforço?” (PDF) . Avanços em Sistemas de Processamento de Informação Neural 32 .
  28. ^ "Sobre o Uso de Aprendizagem por Reforço para Testar Mecânica de Jogos: ACM - Computadores em Entretenimento" . cie.acm.org . Recuperado em 27/11/2018 .
  29. ^ Riveret, Regis; Gao, Yang (2019). “Uma estrutura de argumentação probabilística para agentes de aprendizagem por reforço”. Agentes Autônomos e Sistemas Multiagentes . 33 (1–2): 216–274. doi :10.1007/s10458-019-09404-2. S2CID71147890  .
  30. ^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (2021-11-16). "Aprendizagem por reforço com feedback de vários humanos com habilidades diversas". arXiv : 2111.08596 [cs.LG].
  31. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Aprendizagem Hierárquica por Reforço Profundo: Integrando Abstração Temporal e Motivação Intrínseca". Anais da 30ª Conferência Internacional sobre Sistemas de Processamento de Informação Neural . NIPS'16. EUA: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Bibcode : 2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  32. ^ "Aprendizagem por Reforço / Sucessos da Aprendizagem por Reforço" . umichrl.pbworks.com . Recuperado em 06/08/2017 .
  33. ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (março de 2020). "Aprendizagem de reforço consciente da interação do usuário para eficiência energética e térmica de MPSoCs móveis CPU-GPU". Conferência e Exposição de Design, Automação e Teste 2020 na Europa (DATA) (PDF) . pp. doi :10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID219858480  .
  34. ^ Questionado, Tony. “Os smartphones ficam mais inteligentes com a inovação do Essex” . Semanal de Negócios . Recuperado em 17/06/2021 .
  35. ^ Williams, Rhiannon (21/07/2020). “Os futuros smartphones 'prolongarão a vida útil da bateria monitorando o comportamento dos proprietários ' ” . eu . Recuperado em 17/06/2021 .
  36. ^ Kaplan, F.; Oudeyer, P. (2004). "Maximizando o progresso da aprendizagem: um sistema interno de recompensa para o desenvolvimento". Em Iida, F.; Pfeifer, R.; Aços, L.; Kuniyoshi, Y. (eds.). Inteligência Artificial Incorporada . Notas de aula em Ciência da Computação. Vol. 3139. Berlim; Heidelberg: Springer. pp. 259–270. doi :10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID9781221  .
  37. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Mantenha suas opções abertas: um princípio de condução baseado em informações para sistemas sensório-motores". PLOS UM . 3 (12): e4018. Bibcode :2008PLoSO...3.4018K. doi : 10.1371/journal.pone.0004018 . PMC 2607028 . PMID19107219  . 
  38. ^ Barto, AG (2013). “Motivação intrínseca e aprendizagem por reforço”. Aprendizagem intrinsecamente motivada em sistemas naturais e artificiais (PDF) . Berlim; Heidelberg: Springer. págs. 17–47.
  39. ^ Dabério, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Execução Profunda - Aprendizado de Reforço Baseado em Valores e Políticas para Negociar e Superar Benchmarks de Mercado" . O Jornal de Aprendizado de Máquina em Finanças . 1 . SSRN  3374766.
  40. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Mapas auto-organizáveis ​​para armazenamento e transferência de conhecimento em aprendizagem por reforço”. Comportamento Adaptativo . 27 (2): 111–126. arXiv : 1811.08318 . doi :10.1177/1059712318818568. ISSN  1059-7123. S2CID53774629  .
  41. ^ J Duan; Y Guan; S Li (2021). "Distribucional Soft Actor-Critic: Aprendizagem por reforço fora da política para lidar com erros de estimativa de valor". Transações IEEE em Redes Neurais e Sistemas de Aprendizagem . 33 (11): 6584–6598. arXiv : 2001.02811 . doi :10.1109/TNNLS.2021.3082568. PMID  34101599. S2CID  211259373.
  42. ^ Y Ren; J Duan; S Li (2020). "Melhorando a Generalização da Aprendizagem por Reforço com Minimax Distributional Soft Actor-Critic" . 2020 IEEE 23ª Conferência Internacional sobre Sistemas de Transporte Inteligentes (ITSC) . páginas 1–6. arXiv : 2002.05502 . doi :10.1109/ITSC45102.2020.9294300. ISBN 978-1-7281-4149-7. S2CID211096594  .
  43. ^ Duan, J; Wang, W; Xiao, L (2023-10-26). "DSAC-T: Ator-crítico distributivo suave com três refinamentos" . arXiv : 2310.05858 [cs.LG].
  44. ^ Soucek, Branko (6 de maio de 1992). Programação Dinâmica, Genética e Caótica: A Série de Tecnologia de Computação de Sexta Geração . John Wiley & Sons, Inc. 38.ISBN 0-471-55717-X.
  45. ^ François-Lavet, Vincent; e outros. (2018). "Uma introdução ao aprendizado por reforço profundo". Fundamentos e tendências em aprendizado de máquina . 11 (3–4): 219–354. arXiv : 1811.12560 . Código bib : 2018arXiv181112560F. doi :10.1561/2200000071. S2CID54434537  .
  46. ^ Mnih, Volodymyr; e outros. (2015). "Controle de nível humano por meio de aprendizagem por reforço profundo". Natureza . 518 (7540): 529–533. Bibcode :2015Natur.518..529M. doi :10.1038/nature14236. PMID  25719670. S2CID  205242740.
  47. ^ Bom companheiro, Ian; Shlens, Jonathan; Szegedy, cristão (2015). "Explicando e aproveitando exemplos adversários". Conferência Internacional sobre Representações de Aprendizagem . arXiv : 1412.6572 .
  48. ^ Behzadan, Vahid; Munir, Arslan (2017). "Vulnerabilidade da aprendizagem por reforço profundo a ataques de indução de políticas". Aprendizado de máquina e mineração de dados em reconhecimento de padrões . Notas de aula em Ciência da Computação. Vol. 10358. pp. arXiv : 1701.04143 . doi :10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID1562290  .
  49. ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (07/02/2017). Ataques adversários em políticas de redes neurais. OCLC1106256905  .{{cite book}}: CS1 maint: multiple names: authors list (link)
  50. ^ Korkmaz, Ezgi (2022). "Políticas de aprendizagem por reforço profundo aprendem recursos adversários compartilhados entre MDPs" . Trigésima Sexta Conferência AAAI sobre Inteligência Artificial (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi : 10.1609/aaai.v36i7.20684 . S2CID245219157  .
  51. ^ Berenji, RH (1994). "Fuzzy Q-learning: Uma nova abordagem para programação dinâmica fuzzy". Anais da 3ª Conferência Internacional de Sistemas Fuzzy do IEEE de 1994 . Orlando, FL, EUA: IEEE. págs. doi :10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID56694947  .
  52. ^ Vincze, David (2017). "Interpolação de regras difusas e aprendizagem por reforço" (PDF) . 2017 IEEE 15º Simpósio Internacional de Inteligência de Máquina Aplicada e Informática (SAMI) . IEEE. páginas 173–178. doi :10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID17590120  .
  53. ^ Ng, AY; Russel, SJ (2000). "Algoritmos para aprendizagem por reforço inverso" (PDF) . Continuando os Anais do ICML '00 da Décima Sétima Conferência Internacional sobre Aprendizado de Máquina . pp. 663–670. ISBN 1-55860-707-2.
  54. ^ Ziebart, Brian D.; Maas, André; Bagnell, J. Andrew; Dey, Anind K. (13/07/2008). "Aprendizagem por reforço inverso de entropia máxima". Anais da 23ª Conferência Nacional sobre Inteligência Artificial - Volume 3 . AAAI'08. Chicago, Illinois: AAAI Press: 1433–1438. ISBN 978-1-57735-368-3. S2CID336219  .
  55. ^ Pitombeira-Neto, Anselmo R.; Santos, Helano P.; Coelho da Silva, Ticiana L.; de Macedo, José Antonio F. (março de 2024). "Modelagem de trajetória via aprendizagem de reforço inverso de utilidade aleatória". Ciências da Informação . 660 : 120128. arXiv : 2105.12092 . doi :10.1016/j.ins.2024.120128. ISSN0020-0255  . S2CID235187141  .
  56. ^ Garcia, Javier; Fernández, Fernando (1 de janeiro de 2015). "Uma pesquisa abrangente sobre aprendizagem por reforço seguro" (PDF) . O Jornal de Pesquisa de Aprendizado de Máquina . 16 (1): 1437–1480.
  57. ^ ab Guan, Yang; Li, Shengbo; Duan, Jiangliang (2021). “Aprendizagem por reforço direto e indireto”. Jornal Internacional de Sistemas Inteligentes . 36 (8): 4439–4467. arXiv : 1912.10600 . doi :10.1002/int.22466.

Fontes

Leitura adicional

  • Annaswamy, Anuradha M. (3 de maio de 2023). "Controle Adaptativo e Interseções com Aprendizagem por Reforço". Revisão Anual de Controle, Robótica e Sistemas Autônomos . 6 (1): 65–93. doi : 10.1146/annurev-control-062922-090153 . ISSN2573-5144  . S2CID255702873  .
  • Auer, Pedro ; Jaksch, Thomas; Ortner, Ronald (2010). "Limites de arrependimento quase ideais para aprendizagem por reforço". Jornal de Pesquisa de Aprendizado de Máquina . 11 : 1563–1600.
  • Busoniu, Luciano; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). Aprendizagem por Reforço e Programação Dinâmica usando Aproximadores de Função. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
  • François-Lavet, Vincent; Henderson, Peter; Islã, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "Uma introdução ao aprendizado por reforço profundo". Fundamentos e tendências em aprendizado de máquina . 11 (3–4): 219–354. arXiv : 1811.12560 . Código bib : 2018arXiv181112560F. doi :10.1561/2200000071. S2CID54434537  .
  • Powell, Warren (2011). Programação dinâmica aproximada: resolvendo as maldições da dimensionalidade. Wiley-Interciência. Arquivado do original em 31/07/2016 . Recuperado em 08/09/2010 .
  • Sutton, Richard S. (1988). “Aprendendo a prever pelo método das diferenças temporais”. Aprendizado de máquina . 3 : 9–44. doi : 10.1007/BF00115009 .
  • Szita, István; Szepesvari, Csaba (2010). "Aprendizagem por reforço baseada em modelo com limites de complexidade de exploração quase rígidos" (PDF) . ICML 2010 . Omnipress. pp. Arquivado do original (PDF) em 14/07/2010.

links externos

  • Repositório de Aprendizagem por Reforço
  • Aprendizado por Reforço e Inteligência Artificial (RLAI, laboratório de Rich Sutton na Universidade de Alberta )
  • Laboratório de Aprendizagem Autônoma (ALL, laboratório de Andrew Barto na Universidade de Massachusetts Amherst )
  • Experimentos de aprendizagem por reforço do mundo real Arquivados em 08/10/2018 na Wayback Machine da Delft University of Technology
  • Palestra Andrew Ng da Universidade de Stanford sobre Aprendizagem por Reforço
  • Dissecando a série de aprendizagem por reforço de postagens de blog sobre aprendizagem por reforço com código Python
  • Uma (longa) espiada no aprendizado por reforço
Retrieved from "https://en.wikipedia.org/w/index.php?title=Reinforcement_learning&oldid=1219048943"