amend

pytorch · Jan 31, 2024 · 4b746f6 · 4b746f6
1 parent 03c201c
commit 4b746f6
Show file tree

Hide file tree

Showing 5 changed files with 9 additions and 9 deletions.
diff --git a/examples/a2c/utils_atari.py b/examples/a2c/utils_atari.py
@@ -98,8 +98,8 @@ def make_ppo_modules_pixels(proof_environment):
         num_outputs = proof_environment.action_spec.shape
         distribution_class = TanhNormal
         distribution_kwargs = {
-            "min": proof_environment.action_spec.space.minimum,
-            "max": proof_environment.action_spec.space.maximum,
+            "min": proof_environment.action_spec.space.low,
+            "max": proof_environment.action_spec.space.high,
         }
 
     # Define input keys

diff --git a/examples/a2c/utils_mujoco.py b/examples/a2c/utils_mujoco.py
@@ -51,8 +51,8 @@ def make_ppo_models_state(proof_environment):
     num_outputs = proof_environment.action_spec.shape[-1]
     distribution_class = TanhNormal
     distribution_kwargs = {
-        "min": proof_environment.action_spec.space.minimum,
-        "max": proof_environment.action_spec.space.maximum,
+        "min": proof_environment.action_spec.space.low,
+        "max": proof_environment.action_spec.space.high,
         "tanh_loc": False,
     }
 

diff --git a/examples/bandits/dqn.py b/examples/bandits/dqn.py
@@ -122,4 +122,4 @@
                 f"training reward {data['next', 'reward'].sum() / env.numel() : 4.4f}, "
                 f"loss {loss_val: 4.4f} (init: {init_loss: 4.4f})"
             )
-        policy.step()
+        policy[1].step()
diff --git a/examples/distributed/collectors/multi_nodes/ray_train.py b/examples/distributed/collectors/multi_nodes/ray_train.py
@@ -85,8 +85,8 @@
         in_keys=["loc", "scale"],
         distribution_class=TanhNormal,
         distribution_kwargs={
-            "min": env.action_spec.space.minimum,
-            "max": env.action_spec.space.maximum,
+            "min": env.action_spec.space.low,
+            "max": env.action_spec.space.high,
         },
         return_log_prob=True,
     )

diff --git a/examples/iql/utils.py b/examples/iql/utils.py
@@ -203,8 +203,8 @@ def make_iql_model(cfg, train_env, eval_env, device="cpu"):
         spec=action_spec,
         distribution_class=TanhNormal,
         distribution_kwargs={
-            "min": action_spec.space.minimum,
-            "max": action_spec.space.maximum,
+            "min": action_spec.space.low,
+            "max": action_spec.space.high,
             "tanh_loc": False,
         },
         default_interaction_type=ExplorationType.RANDOM,