fix: format

Nan2018 · Nan2018 · commit dfd93011f153 · 2024-09-04T17:27:51.000-05:00
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -27,8 +27,9 @@
                               destroy_model_parallel,
                               init_distributed_environment,
                               initialize_model_parallel)
-from vllm.inputs import (ExplicitEncoderDecoderPrompt, TextPrompt, EmbedsPrompt,
-                         to_enc_dec_tuple_list, zip_enc_dec_prompts)
+from vllm.inputs import (ExplicitEncoderDecoderPrompt, TextPrompt,
+                         EmbedsPrompt, to_enc_dec_tuple_list,
+                         zip_enc_dec_prompts)
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
 from vllm.sequence import SampleLogprobs
diff --git a/tests/worker/test_model_runner.py b/tests/worker/test_model_runner.py
@@ -34,9 +34,8 @@ def _create_model_runner(model: str, *args, **kwargs) -> ModelRunner:
     return model_runner
 
 
-@pytest.mark.parametrize("batch_size, prompt_embeds_ratio",
-                         list(itertools.product(range(1, 257),
-                                                (0.0, 0.5, 1.0))))
+@pytest.mark.parametrize("batch_size", list(range(1, 257, 3)))
+@pytest.mark.parametrize("prompt_embeds_ratio", (0.0, 0.5, 1.0))
 def test_prepare_prompt(batch_size, prompt_embeds_ratio):
     model_runner = _create_model_runner(
         "facebook/opt-125m",
@@ -54,11 +53,13 @@ def test_prepare_prompt(batch_size, prompt_embeds_ratio):
         seq_len = i % (model_runner.block_size - 1) + 1
         seq_lens.append(seq_len)
         if random.random() < prompt_embeds_ratio:
-            seq_data = SequenceData([], prompt_embeds=torch.rand(seq_len, 10))
+            seq_data = SequenceData(
+                array(VLLM_TOKEN_ID_ARRAY_TYPE, range(seq_len)),
+                torch.rand(seq_len, 10))
             input_embeds_len += seq_len
-        else
-            seq_data = SequenceData(array(VLLM_TOKEN_ID_ARRAY_TYPE,
-                                        range(seq_len)))
+        else:
+            seq_data = SequenceData(
+                array(VLLM_TOKEN_ID_ARRAY_TYPE, range(seq_len)))
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
             is_prompt=True,
@@ -163,7 +164,7 @@ def test_prepare_prompt(batch_size, prompt_embeds_ratio):
     torch.testing.assert_close(actual, expected)
 
 
-@pytest.mark.parametrize("batch_size", list(range(1, 257)))
+@pytest.mark.parametrize("batch_size", list(range(1, 257, 3)))
 @pytest.mark.parametrize("prompt_embeds_ratio", (0.0, 0.5, 1.0))
 def test_prepare_decode_cuda_graph(batch_size, prompt_embeds_ratio):
     model_runner = _create_model_runner(
@@ -185,8 +186,8 @@ def test_prepare_decode_cuda_graph(batch_size, prompt_embeds_ratio):
         context_len = i % (model_runner.block_size - 1) + 1
         context_lens.append(context_len)
         if random.random() < prompt_embeds_ratio:
-            seq_data = SequenceData([],
-                                    prompt_embeds=torch.rand(context_len, 10))
+            seq_data = SequenceData(array(VLLM_TOKEN_ID_ARRAY_TYPE, range(0)),
+                                    torch.rand(context_len, 10))
             input_embeds_len += context_len
         else:
             seq_data = SequenceData(
@@ -337,7 +338,7 @@ def distributed_init():
     ensure_model_parallel_initialized(1, 1)
 
 
-@pytest.mark.parametrize("batch_size", list(range(2, 128)))
+@pytest.mark.parametrize("batch_size", list(range(2, 128, 3)))
 @pytest.mark.parametrize("enforce_eager", [True, False])
 @pytest.mark.parametrize('prompt_embeds_ratio', [0.0, 0.5, 1.0])
 def test_hybrid_batches(batch_size, enforce_eager, prompt_embeds_ratio,
@@ -366,11 +367,12 @@ def test_hybrid_batches(batch_size, enforce_eager, prompt_embeds_ratio,
         seq_len = i % (model_runner.block_size - 1) + 1
         seq_lens.append(seq_len)
         if random.random() < prompt_embeds_ratio:
-            seq_data = SequenceData([], prompt_embeds=torch.rand(seq_len, 10))
+            seq_data = SequenceData(array(VLLM_TOKEN_ID_ARRAY_TYPE, range(0)),
+                                    torch.rand(seq_len, 10))
             input_embeds_len += seq_len
         else:
-            seq_data = SequenceData(array(VLLM_TOKEN_ID_ARRAY_TYPE,
-                                      range(seq_len)))
+            seq_data = SequenceData(
+                array(VLLM_TOKEN_ID_ARRAY_TYPE, range(seq_len)))
         seq_group_metadata = SequenceGroupMetadata(
             request_id=f"test_{i}",
             is_prompt=True,
@@ -387,8 +389,8 @@ def test_hybrid_batches(batch_size, enforce_eager, prompt_embeds_ratio,
         # make sure all tokens fit into one block
         context_len = i % (model_runner.block_size - 1) + 1
         if random.random() < prompt_embeds_ratio:
-            seq_data = SequenceData([],
-                                    prompt_embeds=torch.rand(context_len, 10))
+            seq_data = SequenceData(array(VLLM_TOKEN_ID_ARRAY_TYPE, range(0)),
+                                    torch.rand(context_len, 10))
         else:
             prompt_toks = array(VLLM_TOKEN_ID_ARRAY_TYPE, range(context_len))
             seq_data = SequenceData(prompt_toks)
diff --git a/vllm/engine/async_llm_engine.py b/vllm/engine/async_llm_engine.py
@@ -436,7 +436,6 @@ async def _extract_prompt_components_async(
             multi_modal_data = None
             prompt_embeds = None
         elif isinstance(inputs, dict):
-            prompt = inputs.get("prompt")
             prompt_embeds = inputs.get("prompt_embeds")
             driver_worker = self.model_executor.driver_worker
             if prompt_embeds is not None:
@@ -450,6 +449,7 @@ async def _extract_prompt_components_async(
                     raise ValueError(
                         f"Model {self.model_config.model} does not support input "
                         "embeddings, but prompt_embeds was provided.")
+                prompt = None
                 prompt_token_ids = []
             elif "prompt_token_ids" in inputs:
                 prompt = None
diff --git a/vllm/engine/llm_engine.py b/vllm/engine/llm_engine.py
@@ -76,7 +76,7 @@ def _load_generation_config_dict(model_config: ModelConfig) -> Dict[str, Any]:
 _G = TypeVar("_G", bound=BaseTokenizerGroup, default=BaseTokenizerGroup)
 _O = TypeVar("_O", RequestOutput, EmbeddingRequestOutput)
 
-PromptComponents = Tuple[Optional[str], List[int],
+PromptComponents = Tuple[Optional[str], List[int], Optional[torch.Tensor],
                          Optional[MultiModalDataDict]]
 DecoderPromptComponents = Tuple[Optional[str], Optional[List[int]],
                                 Optional[MultiModalDataDict]]
@@ -808,7 +808,6 @@ def _extract_prompt_components(
             multi_modal_data = None
             prompt_embeds = None
         elif isinstance(inputs, dict):
-            prompt = inputs.get("prompt")
             prompt_embeds = inputs.get("prompt_embeds")
             driver_worker = self.model_executor.driver_worker
             if prompt_embeds is not None:
@@ -822,6 +821,7 @@ def _extract_prompt_components(
                     raise ValueError(
                         f"Model {self.model_config.model} does not support input "
                         "embeddings, but prompt_embeds was provided.")
+                prompt = None
                 prompt_token_ids = []
             elif "prompt_token_ids" in inputs:
                 prompt = None
@@ -894,7 +894,7 @@ def _build_enc_dec_llm_inputs(
         encoder_comps: PromptComponents,
         decoder_comps: DecoderPromptComponents,
     ) -> EncoderDecoderLLMInputs:
-        encoder_prompt, encoder_prompt_ids, encoder_mm_data = encoder_comps
+        encoder_prompt, encoder_prompt_ids, _, encoder_mm_data = encoder_comps
         decoder_prompt, decoder_prompt_ids, decoder_mm_data = decoder_comps
 
         if encoder_mm_data is not None or decoder_mm_data is not None:
@@ -961,10 +961,11 @@ def _process_encoder_decoder_prompt(
             if (decoder_input := inputs["decoder_prompt"]) is None:
                 decoder_comps = None, None, None
             else:
-                decoder_comps = self._extract_prompt_components(
+                prompt, prompt_token_ids, _, multi_modal_data = self._extract_prompt_components(
                     decoder_input,
                     request_id=request_id,
                 )
+                decoder_comps = prompt, prompt_token_ids, multi_modal_data
         else:
             encoder_comps = self._extract_prompt_components(
                 inputs,
@@ -2015,7 +2016,8 @@ def _validate_model_inputs(self, inputs: Union[LLMInputs,
             prompt_ids = inputs.get("prompt_token_ids")
             prompt_embeds = inputs.get("prompt_embeds")
 
-        if (prompt_ids is None or len(prompt_ids) == 0) and prompt_embeds is None:
+        if (prompt_ids is None
+                or len(prompt_ids) == 0) and prompt_embeds is None:
             raise ValueError("Prompt cannot be empty")
 
         if self.model_config.is_multimodal_model:
diff --git a/vllm/inputs/__init__.py b/vllm/inputs/__init__.py
@@ -1,7 +1,8 @@
-from .data import (EmbedsPrompt, EncoderDecoderLLMInputs, ExplicitEncoderDecoderPrompt,
-                   LLMInputs, PromptInputs, SingletonPromptInputs, TextPrompt,
-                   TokensPrompt, build_explicit_enc_dec_prompt,
-                   to_enc_dec_tuple_list, zip_enc_dec_prompts)
+from .data import (EmbedsPrompt, EncoderDecoderLLMInputs,
+                   ExplicitEncoderDecoderPrompt, LLMInputs, PromptInputs,
+                   SingletonPromptInputs, TextPrompt, TokensPrompt,
+                   build_explicit_enc_dec_prompt, to_enc_dec_tuple_list,
+                   zip_enc_dec_prompts)
 from .registry import InputContext, InputRegistry
 
 INPUT_REGISTRY = InputRegistry()
diff --git a/vllm/model_executor/models/fuyu.py b/vllm/model_executor/models/fuyu.py
@@ -284,8 +284,8 @@ def forward(
     ):
         image_input = self._parse_and_validate_image_input(**kwargs)
         inputs_embeds = get_inputs_embeds(
-            input_ids, self.language_model.model.embed_tokens,
-            inputs_embeds, inputs_embeds_masks)
+            input_ids, self.language_model.model.embed_tokens, inputs_embeds,
+            inputs_embeds_masks)
         if image_input is not None:
             vision_embeddings = self._process_image_input(image_input)
             inputs_embeds = merge_multimodal_embeddings(
@@ -298,8 +298,7 @@ def forward(
             kv_caches=kv_caches,
             attn_metadata=attn_metadata,
             inputs_embeds=inputs_embeds,
-            inputs_embeds_masks=inputs_embeds_masks
-        )
+            inputs_embeds_masks=inputs_embeds_masks)
         return hidden_states
 
     def compute_logits(
diff --git a/vllm/model_executor/models/jamba.py b/vllm/model_executor/models/jamba.py
@@ -637,8 +637,11 @@ def forward(self,
             # CUDA graph capturing runs
             mamba_cache = kwargs["seqlen_agnostic_capture_inputs"]
 
-        hidden_states = self.model(input_ids, positions, kv_caches,
-                                   attn_metadata, mamba_cache[0],
+        hidden_states = self.model(input_ids,
+                                   positions,
+                                   kv_caches,
+                                   attn_metadata,
+                                   mamba_cache[0],
                                    mamba_cache[1],
                                    inputs_embeds=inputs_embeds,
                                    inputs_embeds_masks=inputs_embeds_masks)
diff --git a/vllm/model_executor/models/persimmon.py b/vllm/model_executor/models/persimmon.py
@@ -278,14 +278,12 @@ def forward(
         inputs_embeds: Optional[torch.Tensor] = None,
         inputs_embeds_masks: Optional[torch.Tensor] = None,
     ):
-        hidden_states = self.model(
-            input_ids=input_ids,
-            positions=positions,
-            kv_caches=kv_caches,
-            attn_metadata=attn_metadata,
-            inputs_embeds=inputs_embeds,
-            inputs_embeds_masks=inputs_embeds_masks
-        )
+        hidden_states = self.model(input_ids=input_ids,
+                                   positions=positions,
+                                   kv_caches=kv_caches,
+                                   attn_metadata=attn_metadata,
+                                   inputs_embeds=inputs_embeds,
+                                   inputs_embeds_masks=inputs_embeds_masks)
         return hidden_states
 
     def compute_logits(
diff --git a/vllm/model_executor/models/phi3v.py b/vllm/model_executor/models/phi3v.py
@@ -620,9 +620,8 @@ def forward(self,
                 **kwargs: object):
         image_input = self._parse_and_validate_image_input(**kwargs)
         inputs_embeds = get_inputs_embeds(input_ids,
-                                              self.model.get_input_embeddings,
-                                              inputs_embeds,
-                                              inputs_embeds_masks)
+                                          self.model.get_input_embeddings,
+                                          inputs_embeds, inputs_embeds_masks)
         if image_input is not None:
             vision_embeddings = self._process_image_input(image_input)
             inputs_embeds = merge_multimodal_embeddings(
diff --git a/vllm/sequence.py b/vllm/sequence.py
@@ -402,7 +402,8 @@ def __init__(
                              "encoder input prompt fields?")
 
         self.data = SequenceData(
-            array(VLLM_TOKEN_ID_ARRAY_TYPE, self.prompt_token_ids), self.prompt_embeds)
+            array(VLLM_TOKEN_ID_ARRAY_TYPE, self.prompt_token_ids),
+            self.prompt_embeds)
         self.output_logprobs: SampleLogprobs = []
         self.output_text = ""