[Bugfix] Fix empty (nullptr) channelwise scales when loading wNa16 us…

…ing compressed tensors (vllm-project#6798)
neuralmagic · Aug 17, 2024 · c124b20 · c124b20
1 parent 0c5f59a
commit c124b20
Showing 1 changed file with 6 additions and 1 deletion.
diff --git a/...model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py b/...model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
@@ -64,7 +64,12 @@ def create_weights(self, layer: torch.nn.Module, input_size: int,
         is_row_parallel = input_size != input_size_per_partition
 
         # If group_size is -1, we are in channelwise case.
-        group_size = input_size if self.group_size == -1 else self.group_size
+        channelwise = (self.group_size == -1)
+        group_size = input_size if channelwise else self.group_size
+        row_parallel = (input_size != input_size_per_partition)
+        # In the case of channelwise quantization, we need to replicate the
+        # scales across all gpus.
+        partition_scales = (row_parallel and not channelwise)
 
         verify_marlin_supports_shape(
             output_size_per_partition=output_size_per_partition,