From 8bab4959bea640f8f81ca59eb06b1f056ac23111 Mon Sep 17 00:00:00 2001
From: Woosuk Kwon <woosuk.kwon@berkeley.edu>
Date: Tue, 11 Jun 2024 00:37:56 -0700
Subject: [PATCH] [Misc] Remove VLLM_BUILD_WITH_NEURON env variable (#5389)

---
 Dockerfile.neuron | 2 +-
 setup.py          | 2 +-
 vllm/envs.py      | 5 -----
 3 files changed, 2 insertions(+), 7 deletions(-)

diff --git a/Dockerfile.neuron b/Dockerfile.neuron
index fe42b4ef393f1..010f23a143010 100644
--- a/Dockerfile.neuron
+++ b/Dockerfile.neuron
@@ -28,7 +28,7 @@ COPY ./requirements-neuron.txt /app/vllm/requirements-neuron.txt
 RUN cd /app/vllm \
     && python3 -m pip install -U -r requirements-neuron.txt
 
-ENV VLLM_BUILD_WITH_NEURON 1
+ENV VLLM_TARGET_DEVICE neuron
 RUN cd /app/vllm \
     && pip install -e . \
     && cd ..
diff --git a/setup.py b/setup.py
index 339b0ad6de2d1..53a697232b448 100644
--- a/setup.py
+++ b/setup.py
@@ -222,7 +222,7 @@ def _is_neuron() -> bool:
         subprocess.run(["neuron-ls"], capture_output=True, check=True)
     except (FileNotFoundError, PermissionError, subprocess.CalledProcessError):
         torch_neuronx_installed = False
-    return torch_neuronx_installed or envs.VLLM_BUILD_WITH_NEURON
+    return torch_neuronx_installed or VLLM_TARGET_DEVICE == "neuron"
 
 
 def _is_cpu() -> bool:
diff --git a/vllm/envs.py b/vllm/envs.py
index b140aa6d658e6..f0513b9af2764 100644
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -33,7 +33,6 @@
     VLLM_TARGET_DEVICE: str = "cuda"
     MAX_JOBS: Optional[str] = None
     NVCC_THREADS: Optional[str] = None
-    VLLM_BUILD_WITH_NEURON: bool = False
     VLLM_USE_PRECOMPILED: bool = False
     VLLM_INSTALL_PUNICA_KERNELS: bool = False
     CMAKE_BUILD_TYPE: Optional[str] = None
@@ -63,10 +62,6 @@
     "NVCC_THREADS":
     lambda: os.getenv("NVCC_THREADS", None),
 
-    # If set, vllm will build with Neuron support
-    "VLLM_BUILD_WITH_NEURON":
-    lambda: bool(os.environ.get("VLLM_BUILD_WITH_NEURON", False)),
-
     # If set, vllm will use precompiled binaries (*.so)
     "VLLM_USE_PRECOMPILED":
     lambda: bool(os.environ.get("VLLM_USE_PRECOMPILED")),