NVIDIA · guyueh1 · Aug 27, 2024
diff --git a/transformer_engine/pytorch/attention.py b/transformer_engine/pytorch/attention.py
@@ -4727,6 +4727,7 @@ def forward(
 
         ctx.fp8 = fp8 and int(os.getenv("NVTE_FP8_DPA_BWD", "1"))
         qkvo_tensors = (qkv, out_save) if not ctx.fp8 else (None, None)
+        fp8_tensors = fp8_tensors if ctx.fp8 else (None, None, None, None)
         ctx.save_for_backward(
             *qkvo_tensors, cu_seqlens, cu_seqlens_padded, *fp8_tensors, *aux_ctx_tensors
         )
@@ -5115,6 +5116,7 @@ def forward(
 
         ctx.fp8 = fp8 and int(os.getenv("NVTE_FP8_DPA_BWD", "1"))
         qkvo_tensors = (q, kv, out_save) if not ctx.fp8 else (None, None, None)
+        fp8_tensors = fp8_tensors if ctx.fp8 else (None, None, None, None, None)
         ctx.save_for_backward(
             *qkvo_tensors,
             cu_seqlens_q,
@@ -5627,6 +5629,7 @@ def forward(
 
         ctx.fp8 = fp8 and int(os.getenv("NVTE_FP8_DPA_BWD", "1"))
         qkvo_tensors = (q, k, v, out_save) if not ctx.fp8 else (None, None, None, None)
+        fp8_tensors = fp8_tensors if ctx.fp8 else (None, None, None, None, None, None)
         ctx.save_for_backward(
             *qkvo_tensors,
             cu_seqlens_q,