vllm-project
diff --git a/‎tests/runner/test_block_table_jax.py‎ renamed to ‎tests/runner/test_block_table.py‎ b/‎tests/runner/test_block_table_jax.py‎ renamed to ‎tests/runner/test_block_table.py‎
diff --git a/‎tests/runner/test_input_batch_jax.py‎ renamed to ‎tests/runner/test_input_batch.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/runner/test_input_batch_jax.py‎ renamed to ‎tests/runner/test_input_batch.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/runner/test_kv_cache_manager.py‎
Lines changed: 3 additions & 3 deletions b/‎tests/runner/test_kv_cache_manager.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎tests/runner/test_multimodal_manager.py‎
Lines changed: 4 additions & 4 deletions b/‎tests/runner/test_multimodal_manager.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎tests/runner/test_speculative_decoding_manager.py‎
Lines changed: 4 additions & 4 deletions b/‎tests/runner/test_speculative_decoding_manager.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎tests/runner/test_structured_decoding_manager.py‎
Lines changed: 4 additions & 4 deletions b/‎tests/runner/test_structured_decoding_manager.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎tests/runner/test_tpu_jax_runner.py‎ renamed to ‎tests/runner/test_tpu_runner.py‎
Lines changed: 6 additions & 6 deletions b/‎tests/runner/test_tpu_jax_runner.py‎ renamed to ‎tests/runner/test_tpu_runner.py‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎tests/runner/test_tpu_jax_runner_dp.py‎ renamed to ‎tests/runner/test_tpu_runner_dp.py‎
Lines changed: 33 additions & 33 deletions b/‎tests/runner/test_tpu_jax_runner_dp.py‎ renamed to ‎tests/runner/test_tpu_runner_dp.py‎
Lines changed: 33 additions & 33 deletions
diff --git a/‎tests/runner/test_tpu_jax_runner_mesh.py‎ renamed to ‎tests/runner/test_tpu_runner_mesh.py‎
Lines changed: 9 additions & 9 deletions b/‎tests/runner/test_tpu_jax_runner_mesh.py‎ renamed to ‎tests/runner/test_tpu_runner_mesh.py‎
Lines changed: 9 additions & 9 deletions
@@ -2,7 +2,7 @@
 import pytest
 from vllm.sampling_params import SamplingParams
 
-from tpu_inference.runner.input_batch_jax import CachedRequestState, InputBatch
+from tpu_inference.runner.input_batch import CachedRequestState, InputBatch
 
 # Default parameters for creating InputBatch instances in tests
 MAX_NUM_REQS = 8
 
@@ -16,8 +16,8 @@
 from vllm.v1.request import Request
 
 from tpu_inference import utils as common_utils
-from tpu_inference.runner.input_batch_jax import CachedRequestState
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.input_batch import CachedRequestState
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestKVCacheManager:
@@ -37,7 +37,7 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=MagicMock()):
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=MagicMock()):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
 
@@ -12,8 +12,8 @@
 from vllm.sampling_params import SamplingType
 from vllm.v1.core.sched.output import SchedulerOutput as VllmSchedulerOutput
 
-from tpu_inference.runner.input_batch_jax import CachedRequestState
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.input_batch import CachedRequestState
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestMultiModalManager:
@@ -29,8 +29,8 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=MagicMock()), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh', return_value=self.mock_mesh):
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=MagicMock()), \
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh', return_value=self.mock_mesh):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
 
@@ -8,10 +8,10 @@
 from vllm.sampling_params import SamplingType
 from vllm.v1.outputs import DraftTokenIds
 
-from tpu_inference.runner.input_batch_jax import CachedRequestState, InputBatch
+from tpu_inference.runner.input_batch import CachedRequestState, InputBatch
 from tpu_inference.runner.speculative_decoding_manager import \
     SpecDecodeMetadata
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 from tpu_inference.spec_decode.jax.eagle3 import Eagle3Proposer
 
 
@@ -28,8 +28,8 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=MagicMock()), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh', return_value=self.mock_mesh):
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=MagicMock()), \
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh', return_value=self.mock_mesh):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
 
@@ -7,8 +7,8 @@
                          SchedulerConfig, SpeculativeConfig, VllmConfig)
 from vllm.sampling_params import SamplingType
 
-from tpu_inference.runner.input_batch_jax import CachedRequestState
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.input_batch import CachedRequestState
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestStructuredDecodingManager:
@@ -26,8 +26,8 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=MagicMock()), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh', return_value=self.mock_mesh):
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=MagicMock()), \
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh', return_value=self.mock_mesh):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
 
@@ -6,7 +6,7 @@
 from vllm.config import (CacheConfig, ModelConfig, ParallelConfig,
                          SchedulerConfig, SpeculativeConfig, VllmConfig)
 
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestTPUJaxRunner:
@@ -21,8 +21,8 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=MagicMock()), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh', return_value=self.mock_mesh):
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=MagicMock()), \
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh', return_value=self.mock_mesh):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
@@ -114,9 +114,9 @@ def setup_method(self):
         with patch('jax.devices', return_value=self.mock_devices), \
              patch('jax.make_mesh', return_value=self.mock_mesh), \
              patch('jax.random.key', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.nnx.Rngs', return_value=self.mock_rng_key), \
-             patch('tpu_inference.runner.tpu_jax_runner.get_model', return_value=self._model_get_model()), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh', return_value=self.mock_mesh):
+             patch('tpu_inference.runner.tpu_runner.nnx.Rngs', return_value=self.mock_rng_key), \
+             patch('tpu_inference.runner.tpu_runner.get_model', return_value=self._model_get_model()), \
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh', return_value=self.mock_mesh):
 
             model_config = ModelConfig(tokenizer_mode="auto",
                                        trust_remote_code=False,
 
@@ -4,7 +4,7 @@
 import numpy as np
 import pytest
 
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestTPUJaxRunnerDPInputsLightweight:
@@ -76,11 +76,11 @@ def _create_mock_scheduler_output(self,
         mock_output.grammar_bitmask = None
         return mock_output
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_inputs_dp_basic_functionality(self,
                                                    mock_sampling_metadata,
                                                    mock_device_array,
@@ -136,7 +136,7 @@ def test_prepare_dp_input_metadata(self):
         scheduler_output = self._create_mock_scheduler_output(
             num_scheduled_tokens, assigned_dp_ranks)
 
-        with patch('tpu_inference.runner.tpu_jax_runner.runner_utils'
+        with patch('tpu_inference.runner.tpu_runner.runner_utils'
                    ) as mock_runner_utils:
             mock_runner_utils.get_padded_token_len.side_effect = lambda paddings_list, val: 16 if val <= 15 else 32  # Padded tokens per DP rank
 
@@ -210,7 +210,7 @@ def test_prepare_dp_input_metadata_empty_rank(self):
         scheduler_output = self._create_mock_scheduler_output(
             num_scheduled_tokens, assigned_dp_ranks)
 
-        with patch('tpu_inference.runner.tpu_jax_runner.runner_utils'
+        with patch('tpu_inference.runner.tpu_runner.runner_utils'
                    ) as mock_runner_utils:
             mock_runner_utils.get_padded_token_len.side_effect = lambda paddings_list, val: 16 if val <= 15 else 32
 
@@ -287,7 +287,7 @@ def test_prepare_dp_input_metadata_logits_indices_selector_ordering(self):
         scheduler_output = self._create_mock_scheduler_output(
             num_scheduled_tokens, assigned_dp_ranks)
 
-        with patch('tpu_inference.runner.tpu_jax_runner.runner_utils'
+        with patch('tpu_inference.runner.tpu_runner.runner_utils'
                    ) as mock_runner_utils:
             mock_runner_utils.get_padded_token_len.side_effect = lambda paddings_list, val: 8 if val <= 6 else 16
 
@@ -316,11 +316,11 @@ def test_prepare_dp_input_metadata_logits_indices_selector_ordering(self):
             np.testing.assert_array_equal(logits_indices_selector,
                                           expected_positions)
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_inputs_dp_verify_content_balanced(self,
                                                        mock_sampling_metadata,
                                                        mock_device_array,
@@ -433,11 +433,11 @@ def mock_get_padded_token_len(paddings_list, val):
         assert len(logits_indices_selector) == 2
         assert np.array_equal(logits_indices_selector, np.array([0, 4]))
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_inputs_dp_verify_content_empty_rank(
             self, mock_sampling_metadata, mock_device_array, mock_runner_utils,
             mock_named_sharding):
@@ -558,11 +558,11 @@ def mock_get_padded_token_len(paddings_list, val):
         np.testing.assert_array_equal(logits_indices_selector,
                                       expected_selector)
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_async_token_substitution_indices_dp(
             self, mock_sampling_metadata, mock_device_array, mock_runner_utils,
             mock_named_sharding):
@@ -598,11 +598,11 @@ def test_prepare_async_token_substitution_indices_dp(
         assert token_in_tpu_cur_input_indices_dp[1] == [11]
         assert token_in_tpu_pre_next_tokens_indices_dp[1] == [2]
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_async_token_substitution_indices_dp_no_placeholders(
             self, mock_sampling_metadata, mock_device_array, mock_runner_utils,
             mock_named_sharding):
@@ -652,7 +652,7 @@ def test_apply_async_token_substitution_empty_indices(self):
         # Should return input_ids unchanged
         np.testing.assert_array_equal(result, input_ids)
 
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
     def test_apply_async_token_substitution_with_padding(
             self, mock_device_array):
@@ -733,11 +733,11 @@ def test_prepare_inputs_routing_to_non_dp(self):
         self.runner._prepare_inputs_non_dp.assert_called_once_with(
             scheduler_output)
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_inputs_dp_with_async_scheduling(self,
                                                      mock_sampling_metadata,
                                                      mock_device_array,
@@ -806,11 +806,11 @@ def mock_get_padded_token_len(paddings_list, val):
         # Verify async token substitution was called
         mock_prepare_async.assert_called_once()
 
-    @patch('tpu_inference.runner.tpu_jax_runner.NamedSharding')
-    @patch('tpu_inference.runner.tpu_jax_runner.runner_utils')
-    @patch('tpu_inference.runner.tpu_jax_runner.device_array',
+    @patch('tpu_inference.runner.tpu_runner.NamedSharding')
+    @patch('tpu_inference.runner.tpu_runner.runner_utils')
+    @patch('tpu_inference.runner.tpu_runner.device_array',
            side_effect=lambda mesh, tensors, **kwargs: tensors)
-    @patch('tpu_inference.runner.tpu_jax_runner.TPUSupportedSamplingMetadata')
+    @patch('tpu_inference.runner.tpu_runner.TPUSupportedSamplingMetadata')
     def test_prepare_inputs_dp_async_token_substitution_application(
             self, mock_sampling_metadata, mock_device_array, mock_runner_utils,
             mock_named_sharding):
 
@@ -4,7 +4,7 @@
 
 import pytest
 
-from tpu_inference.runner.tpu_jax_runner import TPUModelRunner
+from tpu_inference.runner.tpu_runner import TPUModelRunner
 
 
 class TestTPUModelRunnerMeshInit:
@@ -54,8 +54,8 @@ def test_init_mesh_2d_model_without_device_order(self, runner_instance,
                                                      mock_vllm_config):
         """Test 2d mesh creation without enforced device order."""
         with patch.dict(os.environ, {'NEW_MODEL_DESIGN': ''}), \
-             patch('tpu_inference.runner.tpu_jax_runner.make_optimized_mesh') as mock_make_mesh, \
-             patch('tpu_inference.runner.tpu_jax_runner.logger'):
+             patch('tpu_inference.runner.tpu_runner.make_optimized_mesh') as mock_make_mesh, \
+             patch('tpu_inference.runner.tpu_runner.logger'):
 
             mock_mesh = Mock()
             mock_make_mesh.return_value = mock_mesh
@@ -81,7 +81,7 @@ def test_init_mesh_2d_model_with_device_order(self, runner_instance,
 
         with patch.dict(os.environ, {'NEW_MODEL_DESIGN': ''}), \
              patch('jax.make_mesh') as mock_jax_mesh, \
-             patch('tpu_inference.runner.tpu_jax_runner.logger'):
+             patch('tpu_inference.runner.tpu_runner.logger'):
 
             mock_mesh = Mock()
             mock_jax_mesh.return_value = mock_mesh
@@ -104,9 +104,9 @@ def test_init_mesh_new_model_single_slice(self, runner_instance,
                                               mock_vllm_config):
         """Test new model mesh creation with single slice."""
         with patch.dict(os.environ, {'NEW_MODEL_DESIGN': '1', 'NUM_SLICES': '1'}), \
-             patch('tpu_inference.runner.tpu_jax_runner.mesh_utils') as mock_mesh_utils, \
+             patch('tpu_inference.runner.tpu_runner.mesh_utils') as mock_mesh_utils, \
              patch('jax.sharding.Mesh') as mock_jax_mesh, \
-             patch('tpu_inference.runner.tpu_jax_runner.logger'):
+             patch('tpu_inference.runner.tpu_runner.logger'):
 
             mock_devices_array = Mock()
             mock_mesh_utils.create_device_mesh.return_value = mock_devices_array
@@ -135,9 +135,9 @@ def test_init_mesh_new_model_multi_slice(self, runner_instance,
         """Test new model mesh creation with multiple slices."""
         num_slices = 2
         with patch.dict(os.environ, {'NEW_MODEL_DESIGN': '1', 'NUM_SLICES': str(num_slices)}), \
-             patch('tpu_inference.runner.tpu_jax_runner.mesh_utils') as mock_mesh_utils, \
+             patch('tpu_inference.runner.tpu_runner.mesh_utils') as mock_mesh_utils, \
              patch('jax.sharding.Mesh') as mock_jax_mesh, \
-             patch('tpu_inference.runner.tpu_jax_runner.logger'):
+             patch('tpu_inference.runner.tpu_runner.logger'):
 
             mock_devices_array = Mock()
             mock_mesh_utils.create_hybrid_device_mesh.return_value = mock_devices_array
@@ -174,7 +174,7 @@ def test_multi_slice_mesh_dp_inner_calculation(self, runner_instance,
                                                    num_slices,
                                                    expected_dp_inner):
         """Test dp_inner calculation for various num_slices values."""
-        with patch('tpu_inference.runner.tpu_jax_runner.mesh_utils'
+        with patch('tpu_inference.runner.tpu_runner.mesh_utils'
                    ) as mock_mesh_utils:
             mock_mesh_utils.create_hybrid_device_mesh.return_value = Mock()