⏪ revert quick budget check

Turns out we need to add seqs to SequenceStatus.FINISHED_IGNORED if num_new_tokens > prompt_limit Signed-off-by: Prashant Gupta <[email protected]>
vllm-project · Nov 22, 2024 · cb8fc93 · cb8fc93
1 parent 4f1c322
commit cb8fc93
Showing 1 changed file with 6 additions and 6 deletions.
diff --git a/vllm/core/scheduler.py b/vllm/core/scheduler.py
@@ -1019,12 +1019,6 @@ def _schedule_prefills(
                 budget,
                 partial_prefill_metadata=partial_prefill_metadata)
 
-            num_new_seqs = seq_group.get_max_num_running_seqs()
-            # quick budget check
-            if num_new_tokens == 0 or not budget.can_schedule(
-                    num_new_tokens=num_new_tokens, num_new_seqs=num_new_seqs):
-                break
-
             if not enable_chunking:
                 num_prompt_tokens = waiting_seqs[0].get_len()
                 assert num_new_tokens == num_prompt_tokens
@@ -1075,6 +1069,12 @@ def _schedule_prefills(
                     waiting_queue.popleft()
                     continue
 
+            num_new_seqs = seq_group.get_max_num_running_seqs()
+            # quick budget check
+            if num_new_tokens == 0 or not budget.can_schedule(
+                    num_new_tokens=num_new_tokens, num_new_seqs=num_new_seqs):
+                break
+
             # Can schedule this request.
             if curr_loras is not None and lora_int_id > 0:
                 curr_loras.add(lora_int_id)