lint

vllm-project · tlrmchlsmth · Oct 11, 2024 · Jul 8, 2024 · Jul 9, 2024 · Jul 10, 2024
commit 65d7e220397a3d1b1ee82eb476cfde648c871b52
diff --git a/vllm/attention/backends/placeholder_attn.py b/vllm/attention/backends/placeholder_attn.py
@@ -1,12 +1,15 @@
 from dataclasses import dataclass
-from typing import List, Optional, Tuple, Type
+from typing import TYPE_CHECKING, List, Optional, Tuple, Type
 
 import torch
 
 from vllm.attention.backends.abstract import (AttentionBackend, AttentionImpl,
                                               AttentionMetadata,
                                               AttentionMetadataBuilder)
 
+if TYPE_CHECKING:
+    from vllm.worker.model_runner import ModelInputForGPUBuilder
+
 # Placeholder attention backend for models like Mamba that don't have attention.
 # Mainly exists to sidestep get_attn_backend.
 # The attention metadata is still needed for Mamba.
@@ -38,7 +41,7 @@ def get_kv_cache_shape(
         num_kv_heads: int,
         head_size: int,
     ) -> Tuple[int, ...]:
-        return None
+        return (1, 1, 1, 1, 1)
 
     @staticmethod
     def swap_blocks(
@@ -160,6 +163,7 @@ def decode_metadata(self) -> Optional["PlaceholderAttentionMetadata"]:
         )
         return self._cached_decode_metadata
 
+
 class PlaceholderAttentionMetadataBuilder(
         AttentionMetadataBuilder[PlaceholderAttentionMetadata]):
 

diff --git a/vllm/attention/selector.py b/vllm/attention/selector.py
@@ -87,6 +87,8 @@ def get_attn_backend(
         from vllm.attention.backends.pallas import PallasAttentionBackend
         return PallasAttentionBackend
     elif backend == _Backend.NO_ATTENTION:
+        from vllm.attention.backends.placeholder_attn import (
+            PlaceholderAttentionBackend)
         return PlaceholderAttentionBackend
     else:
         raise ValueError("Invalid attention backend.")

diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
@@ -1534,7 +1534,8 @@ def forward(
                 non_blocking=True)
             if self.backend_name != "No attention":
                 self.input_buffers["block_tables"].copy_(
-                    attn_metadata.decode_metadata.block_tables, non_blocking=True)
+                    attn_metadata.decode_metadata.block_tables,
+                    non_blocking=True)
         if "seqlen_agnostic_capture_inputs" in self.input_buffers:
             self.model.copy_inputs_before_cuda_graphs(self.input_buffers,
                                                       **kwargs)