fix pg bug

MoodMAX · Feb 28, 2019 · 34af750 · 34af750
1 parent de58c08
commit 34af750
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/reinforcement-learning/policy_gradient.py b/reinforcement-learning/policy_gradient.py
@@ -51,7 +51,7 @@ def create_softmax_network(self):
                                                                       labels=self.tf_acts)
         self.loss = tf.reduce_mean(self.neg_log_prob * self.tf_vt)  # reward guided loss
 
-        self.train_op = tf.train.AdamOptimizer(LEARNING_RATE).minimize(-self.loss)
+        self.train_op = tf.train.AdamOptimizer(LEARNING_RATE).minimize(self.loss)
 
     def weight_variable(self, shape):
         initial = tf.truncated_normal(shape)