vllm-project · mfournioux · Aug 2, 2024 · Aug 2, 2024 · Aug 2, 2024 · Aug 2, 2024
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
@@ -30,7 +30,9 @@
                                               DetokenizeResponse,
                                               EmbeddingRequest, ErrorResponse,
                                               TokenizeRequest,
-                                              TokenizeResponse)
+                                              TokenizeResponse, 
+                                              LivenessResponse,
+                                              ReadinessResponse)
 # yapf: enable
 from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
 from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
@@ -89,6 +91,33 @@ async def health() -> Response:
     await openai_serving_chat.engine.check_health()
     return Response(status_code=200)
 
+@router.get(
+    "/liveness",
+    response_model=LivenessResponse,
+    name="liveness",
+    tags=["technical"],
+)
+async def get_liveness() -> LivenessResponse:
+    """Liveness probe for k8s"""
+    liveness_msg = LivenessResponse(alive="ok")
+    return liveness_msg
+
+
+@router.get(
+    "/readiness",
+    response_model=ReadinessResponse,
+    name="readiness",
+    tags=["technical"],
+)
+async def get_readiness() -> ReadinessResponse:
+    """Readiness probe for k8s"""
+    model_weights = openai_serving_chat.engine.engine.model_executor.driver_worker.model_runner.model_memory_usage
+
+    if model_weights > 0:
+        return ReadinessResponse(ready="ok")
+    else:
+        return ReadinessResponse(ready="ko")
+
 
 @router.post("/tokenize")
 async def tokenize(request: TokenizeRequest):

diff --git a/vllm/entrypoints/openai/protocol.py b/vllm/entrypoints/openai/protocol.py
@@ -720,3 +720,31 @@ class DetokenizeRequest(OpenAIBaseModel):
 
 class DetokenizeResponse(OpenAIBaseModel):
     prompt: str
+
+class LivenessResponse(OpenAIBaseModel):
+    """Return object for liveness probe"""
+
+    alive: str = Field(None, title="Alive message")
+    model_config = {
+        "json_schema_extra": {
+            "examples": [
+                "liveness": {
+                    "alive": "ok"
+                }
+            ]
+        }
+    }
+
+class ReadinessResponse(OpenAIBaseModel):
+    """Return object for readiness probe"""
+
+    ready: str = Field(None, title="Ready message")
+    model_config = {
+        "json_schema_extra": {
+            "examples": [
+                "readiness": {
+                    "ready": "ok"
+                }
+            ]
+        }
+    }