FIX run_rpc_server uvloop

France-Travail · maxDavid40 · Aug 29, 2024 · Aug 27, 2024 · Aug 27, 2024 · Aug 27, 2024
commit 4c63b1e2e05c51dcbffefccc47452f605769628d
diff --git a/src/happy_vllm/rpc/server.py b/src/happy_vllm/rpc/server.py
@@ -1,8 +1,6 @@
-import asyncio
-import cloudpickle
+import uvloop
 
 from prometheus_client import Gauge
-from typing_extensions import Never
 from vllm.usage.usage_lib import UsageContext
 from vllm import AsyncEngineArgs
 from vllm.entrypoints.openai.rpc.server import AsyncEngineRPCServer, run_server
@@ -13,5 +11,5 @@ def run_rpc_server(async_engine_args: AsyncEngineArgs,
     server = AsyncEngineRPCServer(async_engine_args=async_engine_args, usage_context=usage_context, rpc_path=rpc_path)
     model_consumed_memory = Gauge("model_memory_usage", "Model Consumed GPU Memory in GB ")
     model_consumed_memory.set(round(server.engine.engine.model_executor.driver_worker.model_runner.model_memory_usage/float(2**30),2)) # type: ignore
-    asyncio.run(run_server(server))
+    uvloop.run(run_server(server))