Adding updated quadrotor_2D results

Federico-PizarroBejarano · Sep 25, 2023 · 786149c · 786149c
1 parent 3814bd7
commit 786149c
Show file tree

Hide file tree

Showing 2,481 changed files with 110,531 additions and 482,546 deletions.
diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/ppo_quadrotor_2D.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/ppo_quadrotor_2D.yaml
@@ -4,25 +4,25 @@ algo_config:
   hidden_dim: 128
 
   # loss args
-  use_gae: True
+  use_gae: False
   entropy_coef: 0.01
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 1
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 10000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: True
   tensorboard: False
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/quadrotor_2D_stab.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/quadrotor_2D_stab.yaml
@@ -52,7 +52,7 @@ task_config:
     M: 0.027
     Iyy: 1.4e-05
 
-  episode_len_sec: 6
+  episode_len_sec: 5
   cost: rl_reward
   obs_goal_horizon: 0
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/quadrotor_2D_track.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/quadrotor_2D_track.yaml
@@ -55,7 +55,7 @@ task_config:
     M: 0.027
     Iyy: 1.4e-05
 
-  episode_len_sec: 6
+  episode_len_sec: 5
   cost: rl_reward
   obs_goal_horizon: 1
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/sac_quadrotor_2D.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/sac_quadrotor_2D.yaml
@@ -21,10 +21,10 @@ algo_config:
   eval_batch_size: 10
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 4000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 4000
   eval_save_best: True
   tensorboard: False
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/safe_explorer_ppo_quadrotor_2D.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/safe_explorer_ppo_quadrotor_2D.yaml
@@ -15,22 +15,22 @@ algo_config:
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 4
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 10000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: True
-  tensorboard: True
+  tensorboard: False
 
   # safety filter
   filter_train_actions: False

diff --git a/experiments/mpsc/config_overrides/quadrotor_2D/safe_explorer_ppo_quadrotor_2D_pretrain.yaml b/experiments/mpsc/config_overrides/quadrotor_2D/safe_explorer_ppo_quadrotor_2D_pretrain.yaml
@@ -22,22 +22,22 @@ algo_config:
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 4
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 10
-  save_interval: 10
+  log_interval: 100
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 10
+  eval_interval: 100
   eval_save_best: True
-  tensorboard: True
+  tensorboard: False
 
   # safety filter
   filter_train_actions: False

diff --git a/experiments/mpsc/models/rl_models/quadrotor_2D/stab/ppo/mpsf/config.yaml b/experiments/mpsc/models/rl_models/quadrotor_2D/stab/ppo/mpsf/config.yaml
@@ -1,23 +1,24 @@
 algo: ppo
 algo_config:
+  activation: tanh
   actor_lr: 0.001
-  clip_obs: 10.0
+  clip_obs: 10
   clip_param: 0.2
-  clip_reward: 10.0
+  clip_reward: 10
   critic_lr: 0.001
   deque_size: 10
   entropy_coef: 0.01
   eval_batch_size: 10
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: true
   filter_train_actions: true
   gae_lambda: 0.95
   gamma: 0.99
   hidden_dim: 128
-  log_interval: 1000
-  max_env_steps: 200000
+  log_interval: 10000
+  max_env_steps: 500000
   max_grad_norm: 0.5
-  mini_batch_size: 256
+  mini_batch_size: 250
   norm_obs: false
   norm_reward: false
   num_checkpoints: 0
@@ -26,18 +27,19 @@ algo_config:
   penalize_sf_diff: false
   pretrained: ./models/rl_models/quadrotor_2D/stab/ppo_pretrain/
   rollout_batch_size: 1
-  rollout_steps: 1000
-  save_interval: 10000
+  rollout_steps: 250
+  save_interval: 0
   sf_penalty: 300
   target_kl: 0.01
   tensorboard: false
   training: true
   use_clipped_value: false
-  use_gae: true
+  use_gae: false
   use_safe_reset: false
 device: cpu
 kv_overrides:
 - task_config.init_state=None
+- task_config.use_constraint_penalty=False
 - sf_config.cost_function=one_step_cost
 - sf_config.mpsc_cost_horizon=2
 - sf_config.decay_factor=0.85
@@ -116,7 +118,7 @@ task_config:
   disturbances: null
   done_on_out_of_bound: true
   done_on_violation: false
-  episode_len_sec: 6
+  episode_len_sec: 5
   gui: false
   inertial_prop:
     Iyy: 1.4e-05