Redoing final 3D quad results

Federico-PizarroBejarano · Sep 27, 2023 · aac70a3 · aac70a3
1 parent 786149c
commit aac70a3
Show file tree

Hide file tree

Showing 2,576 changed files with 110,209 additions and 486,259 deletions.
diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/ppo_quadrotor_3D.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/ppo_quadrotor_3D.yaml
@@ -9,20 +9,20 @@ algo_config:
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 1
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 10000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: True
   tensorboard: False
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/quadrotor_3D_stab.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/quadrotor_3D_stab.yaml
@@ -84,7 +84,7 @@ task_config:
     Iyy: 1.4e-5
     Izz: 2.17e-5
 
-  episode_len_sec: 6
+  episode_len_sec: 5
   cost: rl_reward
   obs_goal_horizon: 0
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/quadrotor_3D_track.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/quadrotor_3D_track.yaml
@@ -89,7 +89,7 @@ task_config:
     Iyy: 1.4e-5
     Izz: 2.17e-5
 
-  episode_len_sec: 6
+  episode_len_sec: 5
   cost: rl_reward
   obs_goal_horizon: 1
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/sac_quadrotor_3D.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/sac_quadrotor_3D.yaml
@@ -21,10 +21,10 @@ algo_config:
   eval_batch_size: 10
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 4000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 4000
   eval_save_best: True
   tensorboard: False
 

diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/safe_explorer_ppo_quadrotor_3D.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/safe_explorer_ppo_quadrotor_3D.yaml
@@ -4,7 +4,7 @@ algo_config:
   hidden_dim: 128
 
   # loss args
-  use_gae: True
+  use_gae: False
   entropy_coef: 0.01
 
   # Safety layer args
@@ -15,22 +15,22 @@ algo_config:
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 4
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 1000
-  save_interval: 10000
+  log_interval: 10000
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: True
-  tensorboard: True
+  tensorboard: False
 
   # safety filter
   filter_train_actions: False

diff --git a/experiments/mpsc/config_overrides/quadrotor_3D/safe_explorer_ppo_quadrotor_3D_pretrain.yaml b/experiments/mpsc/config_overrides/quadrotor_3D/safe_explorer_ppo_quadrotor_3D_pretrain.yaml
@@ -4,7 +4,7 @@ algo_config:
   hidden_dim: 128
 
   # loss args
-  use_gae: True
+  use_gae: False
   entropy_coef: 0.01
 
   # Safety layer args
@@ -22,22 +22,22 @@ algo_config:
 
   # optim args
   opt_epochs: 20
-  mini_batch_size: 256
+  mini_batch_size: 250
   actor_lr: 0.001
   critic_lr: 0.001
 
   # runner args
-  max_env_steps: 200000
+  max_env_steps: 500000
   rollout_batch_size: 4
-  rollout_steps: 1000
+  rollout_steps: 250
 
   # misc
-  log_interval: 10
-  save_interval: 10
+  log_interval: 100
+  save_interval: 0
   num_checkpoints: 0
-  eval_interval: 10
+  eval_interval: 100
   eval_save_best: True
-  tensorboard: True
+  tensorboard: False
 
   # safety filter
   filter_train_actions: False

diff --git a/experiments/mpsc/models/rl_models/quadrotor_3D/stab/ppo/mpsf/config.yaml b/experiments/mpsc/models/rl_models/quadrotor_3D/stab/ppo/mpsf/config.yaml
@@ -1,23 +1,24 @@
 algo: ppo
 algo_config:
+  activation: tanh
   actor_lr: 0.001
-  clip_obs: 10.0
+  clip_obs: 10
   clip_param: 0.2
-  clip_reward: 10.0
+  clip_reward: 10
   critic_lr: 0.001
   deque_size: 10
   entropy_coef: 0.01
   eval_batch_size: 10
-  eval_interval: 1000
+  eval_interval: 10000
   eval_save_best: true
   filter_train_actions: true
   gae_lambda: 0.95
   gamma: 0.99
   hidden_dim: 128
-  log_interval: 1000
-  max_env_steps: 200000
+  log_interval: 10000
+  max_env_steps: 500000
   max_grad_norm: 0.5
-  mini_batch_size: 256
+  mini_batch_size: 250
   norm_obs: false
   norm_reward: false
   num_checkpoints: 0
@@ -26,8 +27,8 @@ algo_config:
   penalize_sf_diff: false
   pretrained: ./models/rl_models/quadrotor_3D/stab/ppo_pretrain/
   rollout_batch_size: 1
-  rollout_steps: 1000
-  save_interval: 10000
+  rollout_steps: 250
+  save_interval: 0
   sf_penalty: 300
   target_kl: 0.01
   tensorboard: false
@@ -38,6 +39,7 @@ algo_config:
 device: cpu
 kv_overrides:
 - task_config.init_state=None
+- task_config.use_constraint_penalty=False
 - sf_config.cost_function=one_step_cost
 - sf_config.mpsc_cost_horizon=2
 - sf_config.decay_factor=0.85
@@ -138,7 +140,7 @@ task_config:
   disturbances: null
   done_on_out_of_bound: true
   done_on_violation: false
-  episode_len_sec: 6
+  episode_len_sec: 5
   gui: false
   inertial_prop:
     Ixx: 1.4e-05