vllm-project · xuechendi · Nov 22, 2024 · Nov 22, 2024 · Nov 22, 2024 · Nov 22, 2024
diff --git a/vllm/config.py b/vllm/config.py
@@ -2318,6 +2318,7 @@ class VllmConfig:
     quant_config: Optional[QuantizationConfig] = None
     compilation_config: CompilationConfig = field(default=None,
                                                   init=True)  # type: ignore
+    model_configs: List[ModelConfig] = field(default=None, init=True)  # type: ignore
 
     @staticmethod
     def _get_quantization_config(

@@ -229,6 +229,7 @@ def __init__(
         input_registry: InputRegistry = INPUT_REGISTRY,
         mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
         use_cached_outputs: bool = False,
+        model: str=None,
     ) -> None:
 
         self.model_config = vllm_config.model_config
@@ -1442,7 +1443,6 @@ def step(self) -> List[Union[RequestOutput, EmbeddingRequestOutput]]:
 
             outputs = self.model_executor.execute_model(
                 execute_model_req=execute_model_req)
-
             # We need to do this here so that last step's sampled_token_ids can
             # be passed to the next iteration for PP.
             if self.scheduler_config.is_multi_step:

diff --git a/vllm/engine/mm_arg_utils.py b/vllm/engine/mm_arg_utils.py
diff --git a/vllm/engine/multiprocessing/__init__.py b/vllm/engine/multiprocessing/__init__.py
@@ -27,6 +27,7 @@ class RPCProcessRequest:
     prompt: PromptType
     params: Union[SamplingParams, PoolingParams]
     request_id: str
+    model: str
     lora_request: Optional[LoRARequest] = None
     trace_headers: Optional[Mapping[str, str]] = None
     prompt_adapter_request: Optional[PromptAdapterRequest] = None
@@ -39,6 +40,7 @@ def __init__(
         inputs: PromptType,
         params: Union[SamplingParams, PoolingParams],
         request_id: str,
+        model: str,
         lora_request: Optional[LoRARequest] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -52,6 +54,7 @@ def __init__(
         prompt: PromptType,
         params: Union[SamplingParams, PoolingParams],
         request_id: str,
+        model: str,
         lora_request: Optional[LoRARequest] = None,
         trace_headers: Optional[Mapping[str, str]] = None,
         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -68,6 +71,7 @@ def __init__(
             prompt: Optional[PromptType] = None,
             params: Optional[Union[SamplingParams, PoolingParams]] = None,
             request_id: Optional[str] = None,
+            model: Optional[str] = None,
             lora_request: Optional[LoRARequest] = None,
             trace_headers: Optional[Mapping[str, str]] = None,
             prompt_adapter_request: Optional[PromptAdapterRequest] = None,
@@ -85,6 +89,7 @@ def __init__(
         self.prompt = prompt
         self.params = params
         self.request_id = request_id
+        self.model = model
         self.lora_request = lora_request
         self.trace_headers = trace_headers
         self.prompt_adapter_request = prompt_adapter_request