Name		Name	Last commit message	Last commit date
Latest commit History 304 Commits
images		images
ACER.md		ACER.md
BiCNet.md		BiCNet.md
C51-analysis.md		C51-analysis.md
C51.md		C51.md
CAPG.md		CAPG.md
CNAME		CNAME
COMA.md		COMA.md
ChallengesRealWorldRL.md		ChallengesRealWorldRL.md
Coinrun.md		Coinrun.md
D4PG.md		D4PG.md
DDPG.md		DDPG.md
DDQN.md		DDQN.md
DEBP.md		DEBP.md
DPPO.md		DPPO.md
DQN.md		DQN.md
DQfD.md		DQfD.md
DirPG.md		DirPG.md
Disagreement.md		Disagreement.md
Distral.md		Distral.md
DualMDP.md		DualMDP.md
Dueling.md		Dueling.md
ECMAC.md		ECMAC.md
EPG.md		EPG.md
EX2.md		EX2.md
GANAC.md		GANAC.md
GANQL.md		GANQL.md
GNLBE.md		GNLBE.md
GTD.md		GTD.md
GVG.md		GVG.md
GenerativeBelief.md		GenerativeBelief.md
Geoff-PAC.md		Geoff-PAC.md
HAL.md		HAL.md
HIRL.md		HIRL.md
I2As.md		I2As.md
IBP.md		IBP.md
IPG.md		IPG.md
IQN.md		IQN.md
ISMCI.md		ISMCI.md
KL-RegulaRL.md		KL-RegulaRL.md
LEARN.md		LEARN.md
LFOD.md		LFOD.md
LICENSE		LICENSE
LOLA.md		LOLA.md
LQR+GAIfO.md		LQR+GAIfO.md
LipschitzQ.md		LipschitzQ.md
MADDPG.md		MADDPG.md
MBDQN.md		MBDQN.md
MBIE-EB.md		MBIE-EB.md
MCAI.md		MCAI.md
MCGE.md		MCGE.md
MERL.md		MERL.md
MMRB.md		MMRB.md
MPO.md		MPO.md
MSRL.md		MSRL.md
MetaSS.md		MetaSS.md
NDM.md		NDM.md
NEC.md		NEC.md
NashDQN.md		NashDQN.md
NoisyNet.md		NoisyNet.md
OLRL.md		OLRL.md
OP-GAIL.md		OP-GAIL.md
PCL.md		PCL.md
PEARL.md		PEARL.md
PEB.md		PEB.md
PER.md		PER.md
PGQ.md		PGQ.md
PGS.md		PGS.md
PGSQL.md		PGSQL.md
PPO-CMA.md		PPO-CMA.md
PPO.md		PPO.md
PhiEB.md		PhiEB.md
ProMP.md		ProMP.md
Programmable.md		Programmable.md
QEnsemble.md		QEnsemble.md
QPROP.md		QPROP.md
QR-DQN.md		QR-DQN.md
REACTOR.md		REACTOR.md
README.md		README.md
RECUR.md		RECUR.md
REETDQN.md		REETDQN.md
RLCRC.md		RLCRC.md
RLNL.md		RLNL.md
RLP.md		RLP.md
RLTUNER.md		RLTUNER.md
ROMMEO.md		ROMMEO.md
RVF.md		RVF.md
Rainbow.md		Rainbow.md
RayInterference.md		RayInterference.md
RoboSumo.md		RoboSumo.md
SGA.md		SGA.md
SOM.md		SOM.md
SPU.md		SPU.md
SRL.md		SRL.md
ST-DIM.md		ST-DIM.md
SoRB.md		SoRB.md
TRPO.md		TRPO.md
UBE.md		UBE.md
UML.md		UML.md
UNREAL.md		UNREAL.md

Repository files navigation

Awesome Deep Reinforcement Learning

Join our slack channel to have deeper discussions.

updated Landscape of DRL

Landscape of DRL

This project is built for people who are learning and researching on latest deep reinforcement learning methods.

Illustrations:

Recommendations and suggestions are welcome.

General guidances

Multiagent Reinforcement Learning by Marc Lanctot RLSS @ Lille 11 July 2019
RLDM 2019 Notes by David Abel 11 July 2019
A Survey of Reinforcement Learning Informed by Natural Language 10 Jun 2019 arxiv
Challenges of Real-World Reinforcement Learning 29 Apr 2019 arxiv
Ray Interference: a Source of Plateaus in Deep Reinforcement Learning 25 Apr 2019 arxiv
Principles of Deep RL by David Silver
University AI's General introduction to deep rl (in Chinese)
OpenAI's spinningup
The Promise of Hierarchical Reinforcement Learning 9 Mar 2019
Deep Reinforcement Learning that Matters 30 Jan 2019 arxiv

Foundations and theory

General non-linear Bellman equations 9 July 2019 arxiv
Monte Carlo Gradient Estimation in Machine Learning 25 Jun 2019 arxiv

General Benchmark Testing Frameworks

Quantifying Generalization in Reinforcement Learning 20 Dec 2018 arxiv
S-RL Toolbox: Environments, Datasets and Evaluation Metrics for State Representation Learning 25 Sept 2018
dopamine
StarCraft II
tfrl
chainerrl
PARL

Value based methods

Recurrent Value Functions 23 May 2019 arxiv
Stochastic Lipschitz Q-Learning 24 Apr 2019 arxiv
TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning 8 Mar 2018
DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY 2 Mar 2018
Rainbow: Combining Improvements in Deep Reinforcement Learning 6 Oct 2017
Learning from Demonstrations for Real World Reinforcement Learning 12 Apr 2017
Dueling Network Architecture
Double DQN
Prioritized Experience
Deep Q-Networks

Policy gradient methods

Explorations in DRL

Self-Supervised Exploration via Disagreement 10 Jun 2019 arxiv
Approximate Exploration through State Abstraction 24 Jan 2019
The Uncertainty Bellman Equation and Exploration 15 Sep 2017
Noisy Networks for Exploration 30 Jun 2017 implementation
Count-Based Exploration in Feature Space for Reinforcement Learning 25 Jun 2017
Count-Based Exploration with Neural Density Models 14 Jun 2017
UCB and InfoGain Exploration via Q-Ensembles 11 Jun 2017
Minimax Regret Bounds for Reinforcement Learning 16 Mar 2017
Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models
EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

Actor-Critic methods

Model-based methods

When to use parametric models in reinforcement learning? 12 Jun 2019 arxiv
Model Based Reinforcement Learning for Atari 5 Mar 2019
Model-Based Stabilisation of Deep Reinforcement Learning 6 Sep 2018
Learning model-based planning from scratch 19 July 2017

Model-free + Model-based

Imagination-Augmented Agents for Deep Reinforcement Learning 19 July 2017

Hierarchical

Language as an Abstraction for Hierarchical Deep Reinforcement Learning 18 Jun 2019 arxiv

Option

Variational Option Discovery Algorithms 26 July 2018
A Laplacian Framework for Option Discovery in Reinforcement Learning 16 Jun 2017

Connection with other methods

Connecting value and policy methods

Reward design

End-to-End Robotic Reinforcement Learning without Reward Engineering 16 Apr 2019 arxiv
Reinforcement Learning with Corrupted Reward Channel 23 May 2017

Unifying

Multi-step Reinforcement Learning: A Unifying Algorithm

Faster DRL

Neural Episodic Control

Apply RL to other domains

TUNING RECURRENT NEURAL NETWORKS WITH REINFORCEMENT LEARNING

Multiagent Settings

Evolutionary Reinforcement Learning for Sample-Efficient Multiagent Coordination 18 Jun 2019 arxiv
A Regularized Opponent Model with Maximum Entropy Objective 17 May 2019 arxiv
Deep Q-Learning for Nash Equilibria: Nash-DQN 23 Apr 2019 arxiv
Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning 4 Nov 2018
INTRINSIC SOCIAL MOTIVATION VIA CAUSAL INFLUENCE IN MULTI-AGENT RL 19 Oct 2018
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 30 Mar 2018
Modeling Others using Oneself in Multi-Agent Reinforcement Learning 26 Feb 2018
The Mechanics of n-Player Differentiable Games 15 Feb 2018
Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments 10 Oct 2017
Learning with Opponent-Learning Awareness 13 Sep 2017
Counterfactual Multi-Agent Policy Gradients
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 7 Jun 2017
Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games 29 Mar 2017

New design

Multitask

Kickstarting Deep Reinforcement Learning 10 Mar 2018
Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning 7 Nov 2017
Distral: Robust Multitask Reinforcement Learning 13 July 2017

Observational Learning

Observational Learning by Reinforcement Learning 20 Jun 2017

Meta Learning

Meta-learning of Sequential Strategies 8 May 2019 arxiv
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables 19 Mar 2019 arxiv
ProMP: Proximal Meta-Policy Search 16 Oct 2018 arxiv
Unsupervised Meta-Learning for Reinforcement Learning 12 Jun 2018

Distributional

GAN Q-learning 20 July 2018
Implicit Quantile Networks for Distributional Reinforcement Learning 14 Jun 2018
Nonlinear Distributional Gradient Temporal-Difference Learning 20 May 2018
DISTRIBUTED DISTRIBUTIONAL DETERMINISTIC POLICY GRADIENTS 23 Apr 2018
An Analysis of Categorical Distributional Reinforcement Learning 22 Feb 2018
Distributional Reinforcement Learning with Quantile Regression 27 Oct 2017
A Distributional Perspective on Reinforcement Learning 21 July 2017

Planning

Search on the Replay Buffer: Bridging Planning and Reinforcement Learning 12 June 2019 arxiv

Safety

Robust Reinforcement Learning for Continuous Control with Model Misspecification 18 Jun 2019 arxiv
Verifiable Reinforcement Learning via Policy Extraction 22 May 2018 arxiv

Inverse RL

ADDRESSING SAMPLE INEFFICIENCY AND REWARD BIAS IN INVERSE REINFORCEMENT LEARNING 9 Sep 2018

No reward RL

Fast Task Inference with Variational Intrinsic Successor Features 2 Jun 2019 arxiv
Curiosity-driven Exploration by Self-supervised Prediction 15 May 2017

Time

Time Limits in Reinforcement Learning

Applications

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills 9 Apr 2018

Adversarial learning

Sample-efficient Adversarial Imitation Learning from Observation 18 Jun 2019 arxiv

Use Natural Language

Using Natural Language for Reward Shaping in Reinforcement Learning 31 May 2019 arxiv

Generative and contrastive representation learning

Unsupervised State Representation Learning in Atari 19 Jun 2019 arxiv

Belief

Shaping Belief States with Generative Environment Models for RL 24 Jun 2019 arxiv

About

For deep RL.

Report repository

Releases

No releases published

Packages

No packages published