max_memory가 넘게 경험이 쌓여서 학습한 경우 base_portfolio_value 갱신

howtokim · Jun 1, 2018 · ef77fd9 · ef77fd9
1 parent 1bb2adf
commit ef77fd9
Showing 1 changed file with 1 addition and 0 deletions.
diff --git a/policy_learner.py b/policy_learner.py
@@ -146,6 +146,7 @@ def fit(
                 # 학습 모드이고 지연 보상이 존재할 경우 정책 신경망 갱신
                 if delayed_reward == 0 and batch_size >= max_memory:
                     delayed_reward = immediate_reward
+                    self.agent.base_portfolio_value = self.agent.portfolio_value
                 if learning and delayed_reward != 0:
                     # 배치 학습 데이터 크기
                     batch_size = min(batch_size, max_memory)