vllm-project · JiayiFeng · Dec 10, 2024 · Dec 12, 2024 · Dec 12, 2024 · Dec 12, 2024
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -1,5 +1,6 @@
 """Fused MoE kernel."""
 import functools
+import inspect
 import json
 import os
 from typing import Any, Callable, Dict, Optional, Tuple
@@ -16,8 +17,16 @@
 
 logger = init_logger(__name__)
 
+if ("do_not_specialize_on_alignment"
+        in inspect.getfullargspec(triton.jit).kwonlyargs):
+    moe_triton_jit = functools.partial(
+        triton.jit, do_not_specialize_on_alignment=["EM", "num_valid_tokens"])
+else:
+    moe_triton_jit = functools.partial(
+        triton.jit, do_not_specialize=["EM", "num_valid_tokens"])
 
-@triton.jit
+
+@moe_triton_jit
 def fused_moe_kernel(
         # Pointers to matrices
         a_ptr,