format

pytorch · vmoens · Feb 15, 2024 · Feb 9, 2024 · Feb 9, 2024 · Feb 9, 2024
commit 566b2b9b0741a9e2caf4bf6df3fe48bea29f5ab6
diff --git a/torchrl/objectives/ppo.py b/torchrl/objectives/ppo.py
@@ -547,9 +547,7 @@ def forward(self, tensordict: TensorDictBase) -> TensorDictBase:
 
         log_weight, dist = self._log_weight(tensordict)
         neg_loss = log_weight.exp() * advantage
-        td_out = TensorDict(
-            {"loss_objective": -neg_loss}, batch_size=[]
-        )
+        td_out = TensorDict({"loss_objective": -neg_loss}, batch_size=[])
         if self.entropy_bonus:
             entropy = self.get_entropy_bonus(dist)
             td_out.set("entropy", entropy.detach())  # for logging

diff --git a/torchrl/objectives/reinforce.py b/torchrl/objectives/reinforce.py
@@ -399,9 +399,7 @@ def forward(self, tensordict: TensorDictBase) -> TensorDictBase:
         if log_prob.shape == advantage.shape[:-1]:
             log_prob = log_prob.unsqueeze(-1)
         loss_actor = -log_prob * advantage.detach()
-        td_out = TensorDict(
-            {"loss_actor": loss_actor}, batch_size=[]
-        )
+        td_out = TensorDict({"loss_actor": loss_actor}, batch_size=[])
 
         td_out.set("loss_value", self.loss_critic(tensordict))
         td_out = td_out.apply(