HabanaAI · AnetaKaczynska · Feb 7, 2025 · Feb 17, 2025 · Feb 16, 2025 · Feb 17, 2025
@@ -0,0 +1,11 @@
+model_name: "/mnt/weka/data/pytorch/mistral/Mistral-7B-Instruct-v0.3"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.4905
+  - name: "exact_match,flexible-extract"
+    value: 0.5284
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
@@ -0,0 +1,11 @@
+model_name: "/mnt/weka/data/mlperf_models/Mixtral-8x7B-Instruct-v0.1"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.6967
+  - name: "exact_match,flexible-extract"
+    value: 0.6952
+limit: 250
+num_fewshot: 8
+dtype: "bfloat16"
@@ -0,0 +1,11 @@
+model_name: "/mnt/weka/data/pytorch/Qwen/Qwen2-7b-Instruct"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.6565
+  - name: "exact_match,flexible-extract"
+    value: 0.7778
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
@@ -0,0 +1,12 @@
+model_name: "/mnt/weka/data/pytorch/granite/granite-20b"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.5291
+  - name: "exact_match,flexible-extract"
+    value: 0.5564
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
+fp8: true
@@ -0,0 +1,11 @@
+model_name: "/mnt/weka/data/pytorch/granite/granite-20b"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.5443
+  - name: "exact_match,flexible-extract"
+    value: 0.5670
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
@@ -0,0 +1,12 @@
+model_name: "/mnt/weka/data/pytorch/granite/granite-8b"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.6376
+  - name: "exact_match,flexible-extract"
+    value: 0.6497
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
+fp8: true
@@ -0,0 +1,11 @@
+model_name: "/mnt/weka/data/pytorch/granite/granite-8b"
+tasks:
+- name: "gsm8k_cot"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.6542
+  - name: "exact_match,flexible-extract"
+    value: 0.6686
+limit: 500
+num_fewshot: 8
+dtype: "bfloat16"
@@ -0,0 +1,3 @@
+Meta-Llama-3.1-8B-Instruct-fp8.yaml
+granite-8b-fp8.yaml
+granite-20b-fp8.yaml
@@ -0,0 +1 @@
+Mixtral-8x7B-Instruct-v0.1.yaml
@@ -0,0 +1,2 @@
+granite-8b.yaml
+granite-20b.yaml
@@ -0,0 +1,2 @@
+Qwen2-7b-Instruct.yaml
+Mistral-7B-Instruct-v0.3.yaml
@@ -2,9 +2,15 @@
 stages:
   - name: test_gsm8k_small_models
     steps:
-      - name: gsm8k_small_g3_tp1
+      - name: gsm8k_small_g3_tp1_part1
         flavor: g3
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-small.txt -t 1
+      - name: gsm8k_small_g3_tp1_part2
+        flavor: g3
+        command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-small-2.txt -t 1
+      - name: gsm8k_small_g3_tp1_part3
+        flavor: g3
+        command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-small-3.txt -t 1
       - name: gsm8k_small_g3_tp2
         flavor: g3.s
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-small.txt -t 2
@@ -16,17 +22,20 @@ stages:
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-small.txt -t 2
   - name: test_gsm8k_large_models
     steps:
-      - name: gsm8k_large_g3_tp2
+      - name: gsm8k_large_g3_tp2_part1
         flavor: g3.s
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-large.txt -t 2
+      - name: gsm8k_large_g3_tp2_part2
+        flavor: g3.s
+        command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-large-2.txt -t 2
       - name: gsm8k_large_g2_tp4
         flavor: g2.m
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-large.txt -t 4
   - name: test_gsm8k_fp8
     steps:
       - name: gsm8k_small_g3_tp1_fp8
         flavor: g3
-        command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-fp8.txt -t 1
+        command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-fp8-g3-tp1.txt -t 1
       - name: gsm8k_small_g3_tp2_fp8
         flavor: g3.s
         command: cd .jenkins/lm-eval-harness && bash run-tests.sh -c configs/models-fp8.txt -t 2
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,2 @@
		Qwen2-7b-Instruct.yaml
		Mistral-7B-Instruct-v0.3.yaml