FURB - Pós Graduação em Data Science
Reinforcement Learning
Aluno: Felipe Eduardo Gomes
Neste trabalho vamos aplicar Gym, Stable-Baselines3 e RL Baselines Zoo para lidar com o treinamento e validação de problemas de aprendizado por reforço. Sua tarefa é:
-
Selecionar um cenário da biblioteca
Gym
de sua preferência, desde que este cenário também seja contemplado pelos modelos disponibilizados narl baselines zoo
;
R: Para o trabalho, escolhi utilizar o LunarLander-v2. -
Selecionar três algoritmos das biblioteca
Stable-baselines3
para resolver esse problema. Pesquise na documentação da biblioteca quais são os algoritmos mais adequados para o ambiente escolhido e justifique a sua escolha.
R: Foram escolhidos os seguintes algoritmos: POO, A2C e DQN. -
Realize o treinamento de cada um dos três modelos ---você pode ajustar os parâmetros do modelos, se achar necessário--- e salve os modelos em disco.
R: Os três modelos treinados estão na pasta "models". -
De posse dos modelos treinados e salvos, carregue-os e avalie-os por 10 episódios. Apresente os resultados médios e gere a curva de recompensa acumulada disponibilizada pelo
TensorBoard
.
R: Os resultados e os gráficos foram gerados na pasta "tensorboard". -
Compare os resultados dos modelos treinados com os resultados obtidos por modelo(s) existentes no
RL Baselines Zoo
para o cenário escolhido.
R: Os resultados do treinamento foram gerados na pasta "tensorboard". -
Gere um vídeo do melhor modelo que você treinou e do modelo escolhido na
RL Baselines Zoo
. Verifique a documentação de cada biblioteca sobre a criação do vídeo e visualização em Notebooks.
R: Os vídeos foram gerados estão disponíveis na pasta "videos".