Shmuma · YiTanJang · Aug 7, 2018
diff --git a/ptan/experience.py b/ptan/experience.py
@@ -493,8 +493,8 @@ def simple_dqn(model, **kwargs):
         return QLearningPreprocessor(model=model, target_model=None, use_double_dqn=False, **kwargs)
 
     @staticmethod
-    def target_dqn(model, target_model, **kwards):
-        return QLearningPreprocessor(model, target_model, use_double_dqn=False, **kwards)
+    def target_dqn(model, target_model, **kwargs):
+        return QLearningPreprocessor(model, target_model, use_double_dqn=False, **kwargs)
 
     @staticmethod
     def double_dqn(model, target_model, **kwargs):

diff --git a/samples/rainbow/lib/common.py b/samples/rainbow/lib/common.py
@@ -85,10 +85,10 @@ def unpack_batch(batch):
 def calc_loss_dqn(batch, net, tgt_net, gamma, cuda=False):
     states, actions, rewards, dones, next_states = unpack_batch(batch)
 
-    states_v = Variable(torch.from_numpy(states))
-    next_states_v = Variable(torch.from_numpy(next_states), volatile=True)
-    actions_v = Variable(torch.from_numpy(actions))
-    rewards_v = Variable(torch.from_numpy(rewards))
+    states_v = torch.from_numpy(states)
+    next_states_v = torch.from_numpy(next_states)
+    actions_v = torch.from_numpy(actions)
+    rewards_v = torch.from_numpy(rewards)
     done_mask = torch.ByteTensor(dones)
     if cuda:
         states_v = states_v.cuda()
@@ -100,10 +100,9 @@ def calc_loss_dqn(batch, net, tgt_net, gamma, cuda=False):
     state_action_values = net(states_v).gather(1, actions_v.unsqueeze(-1)).squeeze(-1)
     next_state_values = tgt_net(next_states_v).max(1)[0]
     next_state_values[done_mask] = 0.0
-    next_state_values.volatile = False
 
-    expected_state_action_values = next_state_values * gamma + rewards_v
-    return nn.MSELoss()(state_action_values, expected_state_action_values)
+    expected_state_action_values = (next_state_values * gamma + rewards_v).detach()
+    return nn.functional.mse_loss(state_action_values, expected_state_action_values)
 
 
 class RewardTracker: