Disable Triton FA path in some problematic Paligemma and Phi3v tests

vllm-project · Jul 19, 2024 · e503f7c · e503f7c
1 parent 39c2cc5
commit e503f7c
Show file tree

Hide file tree

Showing 2 changed files with 12 additions and 1 deletion.
diff --git a/tests/distributed/test_multimodal_broadcast.py b/tests/distributed/test_multimodal_broadcast.py
@@ -15,14 +15,19 @@
 
 import pytest
 
-from vllm.utils import cuda_device_count_stateless
+from vllm.utils import cuda_device_count_stateless, is_hip
 
 model = os.environ["TEST_DIST_MODEL"]
 
 if model.startswith("llava-hf/llava"):
     from ..models.test_llava import models, run_test
 elif model.startswith("microsoft/Phi-3-vision"):
     from ..models.test_phi3v import models, run_test
+
+    # ROCm Triton FA runs into issues with these models, use other backends
+    # FIXME (mattwong, gshtrasb, hongxiayan)
+    if is_hip():
+        os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
 else:
     raise NotImplementedError(f"Unsupported model: {model}")
 

diff --git a/tests/models/test_paligemma.py b/tests/models/test_paligemma.py
@@ -1,3 +1,4 @@
+import os
 from typing import List, Optional, Tuple, Type
 
 import pytest
@@ -23,6 +24,11 @@
 
 models = ["google/paligemma-3b-mix-224"]
 
+# ROCm Triton FA runs into issues with these models, use other backends
+# FIXME (mattwong, gshtrasb, hongxiayan)
+if is_hip():
+    os.environ["VLLM_USE_TRITON_FLASH_ATTN"] = "0"
+
 
 def vllm_to_hf_output(vllm_output: Tuple[List[int], str,
                                          Optional[SampleLogprobs]],