代码说明

display_...为展示训练后的模型效果使用的文件

train —— Dueling DDQN训练使用
train_a3c ——a3c不能使用，没调bug
train_actor_critic ——actor critic 没训练出来好的结果
train_PPO ——PPO训练使用
icm_gae_ppo ——gae+PPO训练使用（徐志伟）
rainbow ——rainbow训练使用（徐志伟）

由于Replay文件夹太大，我们给删去了