NVIDIA
diff --git a/‎.buildinfo‎
Lines changed: 1 addition & 1 deletion b/‎.buildinfo‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎_cpp_gen/executor.html‎
Lines changed: 7668 additions & 7661 deletions b/‎_cpp_gen/executor.html‎
Lines changed: 7668 additions & 7661 deletions
diff --git a/‎_cpp_gen/runtime.html‎
Lines changed: 9108 additions & 9108 deletions b/‎_cpp_gen/runtime.html‎
Lines changed: 9108 additions & 9108 deletions
diff --git a/‎_downloads/b509390ba70e52fabb10dbd9d15d5118/attention.py‎
Lines changed: 137 additions & 130 deletions b/‎_downloads/b509390ba70e52fabb10dbd9d15d5118/attention.py‎
Lines changed: 137 additions & 130 deletions
diff --git a/‎_downloads/c68095123d889975e6e5e839a4241d22/model_engine.py‎
Lines changed: 138 additions & 119 deletions b/‎_downloads/c68095123d889975e6e5e839a4241d22/model_engine.py‎
Lines changed: 138 additions & 119 deletions
diff --git a/‎_downloads/cba6509356738d5d6b4dcb3b7f52cf39/llm_args.py‎
Lines changed: 46 additions & 6 deletions b/‎_downloads/cba6509356738d5d6b4dcb3b7f52cf39/llm_args.py‎
Lines changed: 46 additions & 6 deletions
diff --git a/‎_modules/index.html‎
Lines changed: 4 additions & 4 deletions b/‎_modules/index.html‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎_modules/tensorrt_llm/builder.html‎
Lines changed: 4 additions & 4 deletions b/‎_modules/tensorrt_llm/builder.html‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎_modules/tensorrt_llm/disaggregated_params.html‎
Lines changed: 4 additions & 4 deletions b/‎_modules/tensorrt_llm/disaggregated_params.html‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎_modules/tensorrt_llm/executor/result.html‎
Lines changed: 8 additions & 4 deletions b/‎_modules/tensorrt_llm/executor/result.html‎
Lines changed: 8 additions & 4 deletions
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: 948e770da845dc8359196b2c84313b41
+config: b90210c5e973dc682de95f90231586fa
 tags: 645f666f9bcd5a90fca523b33c5a78b7
@@ -1968,6 +1968,13 @@ class LoadFormat(Enum):
     DUMMY = 1
 
 
+class SamplerType(StrEnum):
+    """Enum for sampler type options."""
+    TRTLLMSampler = "TRTLLMSampler"
+    TorchSampler = "TorchSampler"
+    auto = "auto"
+
+
 class TorchCompileConfig(StrictBaseModel):
     """
     Configuration for torch.compile.
@@ -1983,6 +1990,21 @@ class TorchCompileConfig(StrictBaseModel):
         default=False,
         description="Enable piecewise CUDA graph in torch.compile.")
 
+    capture_num_tokens: Optional[List[int]] = Field(
+        default=None,
+        description=
+        "List of num of tokens to capture the piecewise CUDA graph for. If not provided, the number of tokens will be the same as cuda_graph_config.batch_sizes."
+    )
+
+    @field_validator('capture_num_tokens')
+    @classmethod
+    def validate_capture_num_tokens(cls, v):
+        if v is None:
+            return v
+        if any(t <= 0 for t in v):
+            raise ValueError("capture_num_tokens must contain positive ints.")
+        return sorted(set(v), reverse=True)
+
     enable_userbuffers: bool = Field(
         default=True,
         description=
@@ -2055,11 +2077,11 @@ class TorchLlmArgs(BaseLlmArgs):
         "If true, will iterate over sampling_params of each request and use the corresponding sampling strategy, e.g. top-k, top-p, etc.",
         status="beta")
 
-    use_torch_sampler: bool = Field(
-        default=False,
+    sampler_type: Union[str, SamplerType] = Field(
+        default=SamplerType.auto,
         description=
-        "If true, will use the Torch sampler instead of the TRTLLM sampler.",
-        status="beta")
+        "The type of sampler to use. Options are TRTLLMSampler, TorchSampler or auto. Defaults to auto, which will use TorchSampler unless BeamSearch is requested.",
+        status="prototype")
 
     enable_iter_perf_stats: bool = Field(
         default=False,
@@ -2076,6 +2098,12 @@ class TorchLlmArgs(BaseLlmArgs):
                                  description="Print iteration logs.",
                                  status="beta")
 
+    batch_wait_timeout_ms: float = Field(
+        default=0,
+        description=
+        "If greater than 0, the request queue might wait up to batch_wait_timeout_ms to receive max_batch_size requests, if fewer than max_batch_size requests are currently available. If 0, no waiting occurs.",
+        status="prototype")
+
     torch_compile_config: Optional[TorchCompileConfig] = Field(
         default=None, description="Torch compile config.", status="prototype")
 
@@ -2322,6 +2350,13 @@ def validate_attention_dp_config(self) -> 'TorchLlmArgs':
                 )
         return self
 
+    @model_validator(mode='after')
+    def validate_batch_wait_timeout_ms(self) -> 'TorchLlmArgs':
+        """Validate batch wait timeout."""
+        if self.batch_wait_timeout_ms < 0:
+            raise ValueError("batch_wait_timeout_ms must be greater than 0")
+        return self
+
     # TODO: Remove this after the PyTorch backend is fully migrated to TorchLlmArgs from ExecutorConfig
     def get_pytorch_backend_config(self) -> "PyTorchConfig":
         from tensorrt_llm._torch.pyexecutor.config import PyTorchConfig
@@ -2344,7 +2379,7 @@ def get_pytorch_backend_config(self) -> "PyTorchConfig":
             attn_backend=self.attn_backend,
             moe_backend=self.moe_config.backend,
             enable_mixed_sampler=self.enable_mixed_sampler,
-            use_torch_sampler=self.use_torch_sampler,
+            sampler_type=self.sampler_type,
             kv_cache_dtype=self.kv_cache_config.dtype,
             mamba_ssm_cache_dtype=self.kv_cache_config.mamba_ssm_cache_dtype,
             enable_iter_perf_stats=self.enable_iter_perf_stats,
@@ -2361,6 +2396,10 @@ def get_pytorch_backend_config(self) -> "PyTorchConfig":
             enable_piecewise_cuda_graph
             if self.torch_compile_config is not None else TorchCompileConfig.
             model_fields['enable_piecewise_cuda_graph'].default,
+            torch_compile_piecewise_cuda_graph_num_tokens=self.
+            torch_compile_config.capture_num_tokens
+            if self.torch_compile_config is not None else
+            TorchCompileConfig.model_fields['capture_num_tokens'].default,
             torch_compile_enable_userbuffers=self.torch_compile_config.
             enable_userbuffers if self.torch_compile_config is not None else
             TorchCompileConfig.model_fields['enable_userbuffers'].default,
@@ -2383,7 +2422,8 @@ def get_pytorch_backend_config(self) -> "PyTorchConfig":
             AttentionDpConfig.model_fields['timeout_iters'].default,
             attention_dp_batching_wait_iters=self.attention_dp_config.
             batching_wait_iters if self.attention_dp_config is not None else
-            AttentionDpConfig.model_fields['batching_wait_iters'].default)
+            AttentionDpConfig.model_fields['batching_wait_iters'].default,
+            batch_wait_timeout_ms=self.batch_wait_timeout_ms)
 
 
 def update_llm_args_with_extra_dict(
 
@@ -58,7 +58,7 @@
     <script>
         DOCUMENTATION_OPTIONS.theme_version = '0.16.1';
         DOCUMENTATION_OPTIONS.theme_switcher_json_url = './_static/switcher.json';
-        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc0';
+        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc1';
         DOCUMENTATION_OPTIONS.show_version_warning_banner =
             false;
         </script>
@@ -68,7 +68,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
-  <meta name="docsearch:version" content="1.1.0rc0" />
+  <meta name="docsearch:version" content="1.1.0rc1" />
 
 
   </head>
@@ -688,9 +688,9 @@ <h1>All modules for which code is available</h1>
         <div class="footer-item">
 <div class="extra_footer">
 
-  <p>Last updated on August 15, 2025.</p>
+  <p>Last updated on August 19, 2025.</p>
 
-  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/26f413a">26f413a</a>.</p>
+  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/7334f93">7334f93</a>.</p>
 
 </div></div>
 
 
@@ -58,7 +58,7 @@
     <script>
         DOCUMENTATION_OPTIONS.theme_version = '0.16.1';
         DOCUMENTATION_OPTIONS.theme_switcher_json_url = './_static/switcher.json';
-        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc0';
+        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc1';
         DOCUMENTATION_OPTIONS.show_version_warning_banner =
             false;
         </script>
@@ -68,7 +68,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
-  <meta name="docsearch:version" content="1.1.0rc0" />
+  <meta name="docsearch:version" content="1.1.0rc1" />
 
 
   </head>
@@ -2038,9 +2038,9 @@ <h1>Source code for tensorrt_llm.builder</h1><div class="highlight"><pre>
         <div class="footer-item">
 <div class="extra_footer">
 
-  <p>Last updated on August 15, 2025.</p>
+  <p>Last updated on August 19, 2025.</p>
 
-  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/26f413a">26f413a</a>.</p>
+  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/7334f93">7334f93</a>.</p>
 
 </div></div>
 
 
@@ -58,7 +58,7 @@
     <script>
         DOCUMENTATION_OPTIONS.theme_version = '0.16.1';
         DOCUMENTATION_OPTIONS.theme_switcher_json_url = './_static/switcher.json';
-        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc0';
+        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc1';
         DOCUMENTATION_OPTIONS.show_version_warning_banner =
             false;
         </script>
@@ -68,7 +68,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
-  <meta name="docsearch:version" content="1.1.0rc0" />
+  <meta name="docsearch:version" content="1.1.0rc1" />
 
 
   </head>
@@ -673,9 +673,9 @@ <h1>Source code for tensorrt_llm.disaggregated_params</h1><div class="highlight"
         <div class="footer-item">
 <div class="extra_footer">
 
-  <p>Last updated on August 15, 2025.</p>
+  <p>Last updated on August 19, 2025.</p>
 
-  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/26f413a">26f413a</a>.</p>
+  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/7334f93">7334f93</a>.</p>
 
 </div></div>
 
 
@@ -58,7 +58,7 @@
     <script>
         DOCUMENTATION_OPTIONS.theme_version = '0.16.1';
         DOCUMENTATION_OPTIONS.theme_switcher_json_url = './_static/switcher.json';
-        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc0';
+        DOCUMENTATION_OPTIONS.theme_switcher_version_match = '1.1.0rc1';
         DOCUMENTATION_OPTIONS.show_version_warning_banner =
             false;
         </script>
@@ -68,7 +68,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1"/>
   <meta name="docsearch:language" content="en"/>
-  <meta name="docsearch:version" content="1.1.0rc0" />
+  <meta name="docsearch:version" content="1.1.0rc1" />
 
 
   </head>
@@ -671,6 +671,9 @@ <h1>Source code for tensorrt_llm.executor.result</h1><div class="highlight"><pre
         <span class="bp">self</span><span class="o">.</span><span class="n">postproc_params</span> <span class="o">=</span> <span class="n">postproc_params</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">disaggregated_params</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">decoding_iter</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="c1"># Average decoded tokens per runtime iteration; set when the first LLM response arrives.</span>
+        <span class="c1"># None indicates not yet available (e.g., before first step/stream).</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">avg_decoded_tokens_per_iter</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_done</span> <span class="o">=</span> <span class="kc">False</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">metrics_dict</span> <span class="o">=</span> <span class="p">{}</span>
 
@@ -844,6 +847,7 @@ <h1>Source code for tensorrt_llm.executor.result</h1><div class="highlight"><pre
             <span class="bp">self</span><span class="o">.</span><span class="n">_done</span> <span class="o">=</span> <span class="n">response_result</span><span class="o">.</span><span class="n">is_final</span>
             <span class="n">context_phase_params</span> <span class="o">=</span> <span class="n">response_result</span><span class="o">.</span><span class="n">context_phase_params</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">decoding_iter</span> <span class="o">=</span> <span class="n">response_result</span><span class="o">.</span><span class="n">decoding_iter</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">avg_decoded_tokens_per_iter</span> <span class="o">=</span> <span class="n">response_result</span><span class="o">.</span><span class="n">avg_decoded_tokens_per_iter</span>
             <span class="k">if</span> <span class="n">context_phase_params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">disaggregated_params</span> <span class="o">=</span> <span class="n">DisaggregatedParams</span><span class="p">(</span>
                     <span class="n">request_type</span><span class="o">=</span><span class="s2">&quot;context_only&quot;</span><span class="p">,</span>
@@ -1385,9 +1389,9 @@ <h1>Source code for tensorrt_llm.executor.result</h1><div class="highlight"><pre
         <div class="footer-item">
 <div class="extra_footer">
 
-  <p>Last updated on August 15, 2025.</p>
+  <p>Last updated on August 19, 2025.</p>
 
-  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/26f413a">26f413a</a>.</p>
+  <p>This page is generated by TensorRT-LLM commit <a href="https://github.com/NVIDIA/TensorRT-LLM/tree/7334f93">7334f93</a>.</p>
 
 </div></div>