fix integ test

yanhaoluo666 · yanhaoluo666 · commit 00df2fd0ff9c · 2025-10-29T14:22:39.000Z
diff --git a/generator/test_case_generator.go b/generator/test_case_generator.go
@@ -305,10 +305,6 @@ var testTypeToTestConfig = map[string][]testConfig{
 			testDir:      "../../../../test/gpu",
 			terraformDir: "terraform/eks/addon/gpu",
 		},
-		{
-			testDir:      "../../../../test/gpu_high_frequency_metrics",
-			terraformDir: "terraform/eks/addon/gpu",
-		},
 	},
 	"eks_daemon": {
 		{
diff --git a/terraform/eks/daemon/gpu/main.tf b/terraform/eks/daemon/gpu/main.tf
@@ -306,7 +306,7 @@ resource "kubernetes_daemonset" "exporter" {
             "-c",
           ]
           args = [
-            "/bin/echo 'DCGM_FI_DEV_GPU_UTIL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_FREE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_TOTAL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED_PERCENT{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_GPU_TEMP{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_POWER_USAGE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1' >> /usr/local/apache2/htdocs/metrics && sed -i -e \"s/hostname1/$HOST_NAME/g\" /usr/local/apache2/htdocs/metrics && httpd-foreground -k restart"
+            "/bin/echo 'DCGM_FI_DEV_GPU_UTIL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_FREE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_TOTAL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED_PERCENT{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_GPU_TEMP{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_POWER_USAGE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_PROF_PIPE_TENSOR_ACTIVE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1' >> /usr/local/apache2/htdocs/metrics && sed -i -e \"s/hostname1/$HOST_NAME/g\" /usr/local/apache2/htdocs/metrics && httpd-foreground -k restart"
           ]
           volume_mount {
             mount_path = "/etc/amazon-cloudwatch-observability-dcgm-cert"
diff --git a/test/gpu/common/gpu_validation.go b/test/gpu/common/gpu_validation.go
@@ -23,83 +23,77 @@ import (
 const (
 	GPUMetricIndicator = "_gpu_"
 
-	ContainerMemTotal = "container_gpu_memory_total"
-	ContainerMemUsed  = "container_gpu_memory_used"
-	ContainerPower    = "container_gpu_power_draw"
-	ContainerTemp     = "container_gpu_temperature"
-	ContainerUtil     = "container_gpu_utilization"
-	ContainerMemUtil  = "container_gpu_memory_utilization"
-	PodMemTotal       = "pod_gpu_memory_total"
-	PodMemUsed        = "pod_gpu_memory_used"
-	PodPower          = "pod_gpu_power_draw"
-	PodTemp           = "pod_gpu_temperature"
-	PodUtil           = "pod_gpu_utilization"
-	PodMemUtil        = "pod_gpu_memory_utilization"
-	PodLimit          = "pod_gpu_limit"
-	PodRequest        = "pod_gpu_request"
-	PodCountTotal     = "pod_gpu_usage_total"
-	PodReserved       = "pod_gpu_reserved_capacity"
-	NodeMemTotal      = "node_gpu_memory_total"
-	NodeMemUsed       = "node_gpu_memory_used"
-	NodePower         = "node_gpu_power_draw"
-	NodeTemp          = "node_gpu_temperature"
-	NodeUtil          = "node_gpu_utilization"
-	NodeMemUtil       = "node_gpu_memory_utilization"
-	NodeCountTotal    = "node_gpu_usage_total"
-	NodeCountLimit    = "node_gpu_limit"
-	NodeReserved      = "node_gpu_reserved_capacity"
+	ContainerMemTotal   = "container_gpu_memory_total"
+	ContainerMemUsed    = "container_gpu_memory_used"
+	ContainerPower      = "container_gpu_power_draw"
+	ContainerTemp       = "container_gpu_temperature"
+	ContainerUtil       = "container_gpu_utilization"
+	ContainerMemUtil    = "container_gpu_memory_utilization"
+	ContainerTensorUtil = "container_gpu_tensor_core_utilization"
+	PodMemTotal         = "pod_gpu_memory_total"
+	PodMemUsed          = "pod_gpu_memory_used"
+	PodPower            = "pod_gpu_power_draw"
+	PodTemp             = "pod_gpu_temperature"
+	PodUtil             = "pod_gpu_utilization"
+	PodMemUtil          = "pod_gpu_memory_utilization"
+	PodTensorUtil       = "pod_gpu_tensor_core_utilization"
+	PodLimit            = "pod_gpu_limit"
+	PodRequest          = "pod_gpu_request"
+	PodCountTotal       = "pod_gpu_usage_total"
+	PodReserved         = "pod_gpu_reserved_capacity"
+	NodeMemTotal        = "node_gpu_memory_total"
+	NodeMemUsed         = "node_gpu_memory_used"
+	NodePower           = "node_gpu_power_draw"
+	NodeTemp            = "node_gpu_temperature"
+	NodeUtil            = "node_gpu_utilization"
+	NodeMemUtil         = "node_gpu_memory_utilization"
+	NodeTensorUtil      = "node_gpu_tensor_core_utilization"
+	NodeCountTotal      = "node_gpu_usage_total"
+	NodeCountLimit      = "node_gpu_limit"
+	NodeReserved        = "node_gpu_reserved_capacity"
+	NodeUnreserved      = "node_gpu_unreserved_capacity"
+	NodeAvailable       = "node_gpu_available_capacity"
 )
 
 var UseE2EMetrics = flag.Bool("useE2EMetrics", false, "Use E2E metrics mapping which uses latest build CWA")
 
 // ExpectedDimsToMetricsIntegTest defines the expected dimensions and metrics for GPU validation
 var ExpectedDimsToMetricsIntegTest = map[string][]string{
 	"ClusterName": {
-		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil,
-		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
-		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil,
-		"container_gpu_tensor_core_utilization", "pod_gpu_tensor_core_utilization", "node_gpu_tensor_core_utilization",
-		"node_gpu_unreserved_capacity", "node_gpu_available_capacity",
+		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil, ContainerTensorUtil,
+		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil, PodTensorUtil,
+		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil, NodeTensorUtil,
 	},
 	"ClusterName-Namespace": {
-		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
-		"pod_gpu_tensor_core_utilization",
+		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil, PodTensorUtil,
 	},
 	//"ClusterName-Namespace-Service": {
 	//	PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
 	//},
 	"ClusterName-Namespace-PodName": {
-		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
-		"pod_gpu_tensor_core_utilization",
+		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil, PodTensorUtil,
 	},
 	"ClusterName-ContainerName-Namespace-PodName": {
-		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil,
-		"container_gpu_tensor_core_utilization",
+		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil, ContainerTensorUtil,
 	},
 	"ClusterName-ContainerName-FullPodName-Namespace-PodName": {
-		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil,
-		"container_gpu_tensor_core_utilization",
+		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil, ContainerTensorUtil,
 	},
 	"ClusterName-ContainerName-FullPodName-GpuDevice-Namespace-PodName": {
-		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil,
-		"container_gpu_tensor_core_utilization",
+		ContainerMemTotal, ContainerMemUsed, ContainerPower, ContainerTemp, ContainerUtil, ContainerMemUtil, ContainerTensorUtil,
 	},
 	"ClusterName-FullPodName-Namespace-PodName": {
-		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
-		"pod_gpu_tensor_core_utilization",
+		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil, PodTensorUtil,
 	},
 	"ClusterName-FullPodName-GpuDevice-Namespace-PodName": {
-		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil,
-		"pod_gpu_tensor_core_utilization",
+		PodMemTotal, PodMemUsed, PodPower, PodTemp, PodUtil, PodMemUtil, PodTensorUtil,
 	},
 	"ClusterName-InstanceId-NodeName": {
-		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil,
-		"node_gpu_tensor_core_utilization", "node_gpu_unreserved_capacity", "node_gpu_available_capacity",
+		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil, NodeTensorUtil,
 		//NodeCountTotal, NodeCountRequest, NodeCountLimit,
 	},
 	"ClusterName-GpuDevice-InstanceId-InstanceType-NodeName": {
-		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil,
-		"node_gpu_tensor_core_utilization",
+		NodeMemTotal, NodeMemUsed, NodePower, NodeTemp, NodeUtil, NodeMemUtil, NodeTensorUtil,
 	},
 }
 
@@ -117,7 +111,7 @@ func ValidateGPUMetrics(env *environment.MetaData) []status.TestResult {
 	if *UseE2EMetrics {
 		expectedDimsToMetrics["ClusterName"] = append(
 			expectedDimsToMetrics["ClusterName"],
-			PodReserved, PodRequest, PodCountTotal, PodLimit, NodeCountTotal, NodeCountLimit, NodeReserved,
+			PodReserved, PodRequest, PodCountTotal, PodLimit, NodeCountTotal, NodeCountLimit, NodeReserved, NodeUnreserved, NodeAvailable,
 		)
 		expectedDimsToMetrics["ClusterName-Namespace-PodName"] = append(
 			expectedDimsToMetrics["ClusterName-Namespace-PodName"],
@@ -129,7 +123,7 @@ func ValidateGPUMetrics(env *environment.MetaData) []status.TestResult {
 		)
 		expectedDimsToMetrics["ClusterName-InstanceId-NodeName"] = append(
 			expectedDimsToMetrics["ClusterName-InstanceId-NodeName"],
-			NodeCountLimit, NodeCountTotal, NodeReserved,
+			NodeCountLimit, NodeCountTotal, NodeReserved, NodeUnreserved, NodeAvailable,
 		)
 	}
 
diff --git a/test/metric_value_benchmark/eks_resources/test_schemas/container_gpu.json b/test/metric_value_benchmark/eks_resources/test_schemas/container_gpu.json
@@ -26,6 +26,7 @@
     "container_gpu_temperature": {},
     "container_gpu_utilization": {},
     "container_gpu_memory_utilization": {},
+    "container_gpu_tensor_core_utilization": {},
     "Service":{}
   },
   "required": [
diff --git a/test/metric_value_benchmark/eks_resources/test_schemas/node_gpu.json b/test/metric_value_benchmark/eks_resources/test_schemas/node_gpu.json
@@ -26,9 +26,12 @@
     "node_gpu_temperature": {},
     "node_gpu_utilization": {},
     "node_gpu_memory_utilization": {},
+    "node_gpu_tensor_core_utilization": {},
     "node_gpu_total": {},
     "node_gpu_request": {},
     "node_gpu_list": {},
+    "node_gpu_unreserved_capacity": {},
+    "node_gpu_available_capacity": {},
     "Service":{}
   },
   "required": [
diff --git a/test/metric_value_benchmark/eks_resources/test_schemas/pod_gpu.json b/test/metric_value_benchmark/eks_resources/test_schemas/pod_gpu.json
@@ -26,6 +26,7 @@
     "pod_gpu_temperature": {},
     "pod_gpu_utilization": {},
     "pod_gpu_memory_utilization": {},
+    "pod_gpu_tensor_core_utilization": {},
     "pod_gpu_total": {},
     "pod_gpu_request": {},
     "pod_gpu_list": {},

Original file line number	Diff line number	Diff line change
`@@ -306,7 +306,7 @@ resource "kubernetes_daemonset" "exporter" {`
`306`	`306`	`"-c",`
`307`	`307`	`]`
`308`	`308`	`args = [`
`309`		- "/bin/echo 'DCGM_FI_DEV_GPU_UTIL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_FREE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_TOTAL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED_PERCENT{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_GPU_TEMP{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_POWER_USAGE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1' >> /usr/local/apache2/htdocs/metrics && sed -i -e \"s/hostname1/$HOST_NAME/g\" /usr/local/apache2/htdocs/metrics && httpd-foreground -k restart"
	`309`	+ "/bin/echo 'DCGM_FI_DEV_GPU_UTIL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_FREE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_TOTAL{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_FB_USED_PERCENT{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_GPU_TEMP{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_DEV_POWER_USAGE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1\nDCGM_FI_PROF_PIPE_TENSOR_ACTIVE{PodName=\"pod1\",gpu=\"0\",UUID=\"uuid0\",device=\"nvidia0\",modelName=\"Tesla T4\",Hostname=\"hostname1\",container=\"main\",namespace=\"amazon-cloudwatch\",pod=\"pod1-hash\"} 1' >> /usr/local/apache2/htdocs/metrics && sed -i -e \"s/hostname1/$HOST_NAME/g\" /usr/local/apache2/htdocs/metrics && httpd-foreground -k restart"
`310`	`310`	`]`
`311`	`311`	`volume_mount {`
`312`	`312`	`mount_path = "/etc/amazon-cloudwatch-observability-dcgm-cert"`