triton-inference-server · nv-hwoo · Nov 27, 2024 · Nov 27, 2024 · Nov 27, 2024 · nv-hwoo
diff --git a/genai-perf/genai_perf/export_data/console_exporter.py b/genai-perf/genai_perf/export_data/console_exporter.py
@@ -84,14 +84,13 @@ def _construct_table(self, table: Table) -> None:
             metric_str += f" ({metric.unit})" if metric.unit != "tokens" else ""
             row_values = [metric_str]
             for stat in self.STAT_COLUMN_KEYS:
-                value = self._stats[metric.name][stat]
-                row_values.append(f"{value:,.2f}")
+                value = self._stats[metric.name].get(stat, None)
+                row_values.append(f"{value:,.2f}" if value else "N/A")
 
             table.add_row(*row_values)
 
         for metric in self._metrics.system_metrics:
             metric_str = metric.name.replace("_", " ").capitalize()
-            # metric_str = metric_str.replace("throughput", "tput")
             if metric.name == "request_goodput":
                 if not self._args.goodput:
                     continue

diff --git a/genai-perf/genai_perf/export_data/csv_exporter.py b/genai-perf/genai_perf/export_data/csv_exporter.py
@@ -87,8 +87,8 @@ def _write_request_metrics(self, csv_writer) -> None:
             metric_str += f" ({metric.unit})" if metric.unit != "tokens" else ""
             row_values = [metric_str]
             for stat in self.REQUEST_METRICS_HEADER[1:]:
-                value = self._stats[metric.name][stat]
-                row_values.append(f"{value:,.2f}")
+                value = self._stats[metric.name].get(stat, None)
+                row_values.append(f"{value:,.2f}" if value else "N/A")
 
             csv_writer.writerow(row_values)
 

diff --git a/genai-perf/tests/test_console_exporter.py b/genai-perf/tests/test_console_exporter.py
@@ -459,3 +459,58 @@ def test_valid_telemetry_verbose(self, monkeypatch, capsys) -> None:
 
         returned_data = capsys.readouterr().out
         assert returned_data == expected_content
+
+    def test_missing_data(self, monkeypatch, capsys) -> None:
+        argv = [
+            "genai-perf",
+            "profile",
+            "-m",
+            "model_name",
+            "--service-kind",
+            "openai",
+            "--endpoint-type",
+            "chat",
+        ]
+        monkeypatch.setattr("sys.argv", argv)
+        args, _ = parser.parse_args()
+
+        metrics = LLMMetrics(
+            request_throughputs=[123],
+            request_latencies=[4, 5, 6],
+            time_to_first_tokens=[4, 5, 6],  # same as request_latency
+            inter_token_latencies=[],  # no ITL
+            output_token_throughputs=[456],
+            output_sequence_lengths=[1, 2, 3],
+            input_sequence_lengths=[5, 6, 7],
+        )
+        stats = Statistics(metrics=metrics)
+
+        config = ExporterConfig()
+        config.stats = stats.stats_dict
+        config.metrics = stats.metrics
+        config.args = args
+
+        # Missing data
+        del config.stats["request_latency"]["avg"]
+        del config.stats["output_sequence_length"]["max"]
+        del config.stats["input_sequence_length"]
+
+        exporter = ConsoleExporter(config)
+        exporter.export()
+
+        # No TTFT and ITL in the output
+        expected_content = (
+            "                        NVIDIA GenAI-Perf | LLM Metrics                         \n"
+            "┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━┳━━━━━━┳━━━━━━┳━━━━━━┳━━━━━━┳━━━━━━┓\n"
+            "┃                         Statistic ┃   avg ┃  min ┃  max ┃  p99 ┃  p90 ┃  p75 ┃\n"
+            "┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━╇━━━━━━╇━━━━━━╇━━━━━━╇━━━━━━╇━━━━━━┩\n"
+            "│              Request latency (ms) │   N/A │ 4.00 │ 6.00 │ 5.98 │ 5.80 │ 5.50 │\n"
+            "│            Output sequence length │  2.00 │ 1.00 │  N/A │ 2.98 │ 2.80 │ 2.50 │\n"
+            "│             Input sequence length │   N/A │  N/A │  N/A │  N/A │  N/A │  N/A │\n"
+            "│ Output token throughput (per sec) │ 456.… │  N/A │  N/A │  N/A │  N/A │  N/A │\n"
+            "│      Request throughput (per sec) │ 123.… │  N/A │  N/A │  N/A │  N/A │  N/A │\n"
+            "└───────────────────────────────────┴───────┴──────┴──────┴──────┴──────┴──────┘\n"
+        )
+
+        returned_data = capsys.readouterr().out
+        assert returned_data == expected_content
diff --git a/genai-perf/tests/test_csv_exporter.py b/genai-perf/tests/test_csv_exporter.py
@@ -140,9 +140,6 @@ def test_nonstreaming_llm_csv_output(
         Collect LLM metrics from profile export data and confirm correct values are
         printed in csv.
         """
-        artifacts_dir = "artifacts/model_name-openai-chat-concurrency1"
-        custom_filename = "custom_export.json"
-        expected_filename = f"custom_export_genai_perf.csv"
         argv = [
             "genai-perf",
             "profile",
@@ -153,7 +150,7 @@ def test_nonstreaming_llm_csv_output(
             "--endpoint-type",
             "chat",
             "--profile-export-file",
-            custom_filename,
+            "custom_export.json",
         ]
         monkeypatch.setattr("sys.argv", argv)
         args, _ = parser.parse_args()
@@ -169,6 +166,7 @@ def test_nonstreaming_llm_csv_output(
         exporter = CsvExporter(config)
         exporter.export()
 
+        expected_filename = f"custom_export_genai_perf.csv"
         expected_content = [
             "Metric,avg,min,max,p99,p95,p90,p75,p50,p25\r\n",
             "Request Latency (ms),5.00,4.00,6.00,5.98,5.90,5.80,5.50,5.00,4.50\r\n",
@@ -397,3 +395,57 @@ def test_triton_telemetry_output(
         ]
 
         assert returned_data == expected_content
+
+    def test_missing_data(
+        self, monkeypatch, mock_read_write: pytest.MonkeyPatch, llm_metrics: LLMMetrics
+    ) -> None:
+        """
+        Test if missing data does not throw an error and are marked as "N/A".
+        """
+        argv = [
+            "genai-perf",
+            "profile",
+            "-m",
+            "model_name",
+            "--service-kind",
+            "openai",
+            "--endpoint-type",
+            "chat",
+            "--profile-export-file",
+            "custom_export.json",
+        ]
+        monkeypatch.setattr("sys.argv", argv)
+        args, _ = parser.parse_args()
+
+        stats = Statistics(metrics=llm_metrics)
+
+        config = ExporterConfig()
+        config.stats = stats.stats_dict
+        config.metrics = stats.metrics
+        config.artifact_dir = Path(".")
+        config.args = args
+
+        # Missing data
+        del config.stats["request_latency"]["avg"]
+        del config.stats["output_sequence_length"]["max"]
+        del config.stats["input_sequence_length"]
+
+        exporter = CsvExporter(config)
+        exporter.export()
+
+        expected_filename = f"custom_export_genai_perf.csv"
+        expected_content = [
+            "Metric,avg,min,max,p99,p95,p90,p75,p50,p25\r\n",
+            "Request Latency (ms),N/A,4.00,6.00,5.98,5.90,5.80,5.50,5.00,4.50\r\n",
+            "Output Sequence Length,2.00,1.00,N/A,2.98,2.90,2.80,2.50,2.00,1.50\r\n",
+            "Input Sequence Length,N/A,N/A,N/A,N/A,N/A,N/A,N/A,N/A,N/A\r\n",
+            "\r\n",
+            "Metric,Value\r\n",
+            "Output Token Throughput (per sec),456.00\r\n",
+            "Request Throughput (per sec),123.00\r\n",
+        ]
+        returned_data = [
+            data for filename, data in mock_read_write if filename == expected_filename
+        ]
+
+        assert returned_data == expected_content
diff --git a/src/client_backend/openai/http_client.h b/src/client_backend/openai/http_client.h
@@ -33,8 +33,8 @@
 #include <map>
 #include <memory>
 #include <mutex>
-#include <thread>
 #include <string>
+#include <thread>
 
 namespace triton { namespace perfanalyzer { namespace clientbackend {
 namespace openai {