[GPU] Support FP32 output for FC gemv for performance issue (#32710)

ahnyoung-paul · web-flow · commit 552458d5859c · 2025-11-07T12:54:00.000Z
+ Modify code to allow FP32 output type for FC gemv ### Description of the issue - *By , In the Gemma3-1b model, the Fully Connected (FC) layer was originally expected to use the GEMV kernel. However, due to [PR: Disable FP16 Compression for specific RMS patterns](#32414), some FC's output was changed to FP32, which caused the kernel selector to choose the fc_bf_tiled kernel instead of fc_gemv, resulting in performance degradation.* - *the current FC kernel selector was configured to only allow FP16 output for gemv, which led to the fallback to the less efficient fc_bf_tiled kernel.* - *After modifying the kernel selector to allow GEMV to be selected even when the output data type is FP32, the performance degradation issue was resolved.* #### problematic graphs <img width="651" height="300" alt="image" src="https://github.com/user-attachments/assets/f6d3d571-db8a-4f94-ade5-a8c028724920" /> #### Reproduction step and snapshot - Reproduced by benchmark `python benchmark.py -d GPU -m models/WW43_llm-optimum_2025.4.0-20264/gemma-3-1b-it/pytorch/ov/OV_FP16-4BIT_DEFAULT/ -pf repo-prompts/32_1024/gemma-3-1b-it.jsonl -n 1 --genai -mc 1 -ic 128 --apply_chat_template` #### Checklist - [x] Is it a proper fix? - [X] Did you include test case for this fix, if necessary? - [x] Did you review existing test that can be extended to cover this scenario? Passed llm_bench ### Tickets: - *CVS-175846*
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_gemv.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_gemv.cpp
@@ -17,6 +17,7 @@ ParamsKey FullyConnected_GEMV::GetSupportedKey() const {
     ParamsKey k;
     k.EnableInputDataType(Datatype::F16);
     k.EnableOutputDataType(Datatype::F16);
+    k.EnableOutputDataType(Datatype::F32);
     k.EnableInputWeightsType(WeightsType::INT4);
     k.EnableInputWeightsType(WeightsType::UINT4);
     k.EnableInputLayout(DataLayout::bf);
@@ -64,7 +65,7 @@ bool FullyConnected_GEMV::Validate(const Params& params) const {
     }
 
     // Data type re-check: only support f16:int4:f16
-    if (input.GetDType() != Datatype::F16 || output.GetDType() != Datatype::F16 ||
+    if (input.GetDType() != Datatype::F16 || (output.GetDType() != Datatype::F16 && output.GetDType() != Datatype::F32) ||
         (weights.GetDType() != WeightsType::INT4 && weights.GetDType() != WeightsType::UINT4)) {
         DO_NOT_USE_THIS_KERNEL(params.layerID);
     }
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -1996,7 +1996,8 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                          long int batch_num,
                                          long int scales_group_size = 128,
                                          bool is_uint4 = false,
-                                         bool is_wei_dyn = false) {
+                                         bool is_wei_dyn = false,
+                                         bool is_output_fp16 = true) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
         auto supports_immad = engine.get_device_info().supports_immad;
@@ -2045,7 +2046,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                        "bias",
                                        "scale",
                                        dcomp_zp_name,
-                                       data_types::f16,
+                                       is_output_fp16 ? data_types::f16 : data_types::f32,
                                        2,
                                        2);
 
@@ -2127,14 +2128,26 @@ class fully_connected_gpu_tests: public ::testing::Test {
             ASSERT_TRUE(false);
         }
 
-        auto output_mem = outputs.begin()->second.get_memory();
-        cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
+        if (is_output_fp16) {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
 
-        auto ref_output_mem = get_ref_results();
-        cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+
+            for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 30.0) << "i = " << i;
+            }
+        } else {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<float> output_ptr(output_mem, get_test_stream());
+
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<float> output_ptr_ref(ref_output_mem, get_test_stream());
 
-        for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
-            EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 30.0) << "i = " << i;
+            for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 30.0) << "i = " << i;
+            }
         }
     }
 
@@ -2143,7 +2156,8 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                             long int batch_num,
                                             long int scales_group_size = 128,
                                             bool is_uint4 = false,
-                                            bool is_wei_dyn = false) {
+                                            bool is_wei_dyn = false,
+                                            bool is_output_fp16 = true) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
         auto supports_immad = engine.get_device_info().supports_immad;
@@ -2192,7 +2206,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                        "",
                                        "scale",
                                        "dcomp_zp",
-                                       data_types::f16,
+                                       is_output_fp16 ? data_types::f16 : data_types::f32,
                                        2,
                                        2);
 
@@ -2272,22 +2286,35 @@ class fully_connected_gpu_tests: public ::testing::Test {
             ASSERT_TRUE(false);
         }
 
-        auto output_mem = outputs.begin()->second.get_memory();
-        cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
+        if (is_output_fp16) {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
 
-        auto ref_output_mem = get_ref_results();
-        cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+
+            for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 10.0) << "i = " << i;
+            }
+        } else {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<float> output_ptr(output_mem, get_test_stream());
+
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<float> output_ptr_ref(ref_output_mem, get_test_stream());
 
-        for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
-            EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 10.0) << "i = " << i;
+            for (size_t i = 0; i < output_ptr_ref.size() / batch_num; i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 10.0) << "i = " << i;
+            }
         }
     }
 
     void test_compressed_int4_scale_activation_gemv(bool is_caching_test,
                                                     bool is_dynamic,
                                                     long int batch_num,
                                                     long int scales_group_size = 128,
-                                                    bool is_wei_dyn = false) {
+                                                    bool is_wei_dyn = false,
+                                                    bool is_output_fp16 = true) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
         auto supports_immad = engine.get_device_info().supports_immad;
@@ -2335,7 +2362,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                        "bias",
                                        "scale",
                                        dcomp_zp_name,
-                                       data_types::f16,
+                                       is_output_fp16? data_types::f16 : data_types::f32,
                                        2,
                                        2);
 
@@ -2411,20 +2438,32 @@ class fully_connected_gpu_tests: public ::testing::Test {
             }
         }
 
-        auto output_mem = outputs.begin()->second.get_memory();
-        cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
+        if (is_output_fp16) {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
 
-        auto ref_output_mem = get_ref_results();
-        cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
 
-        for (size_t i = 0; i < output_ptr_ref.size(); i++)
-            ASSERT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+            for (size_t i = 0; i < output_ptr_ref.size(); i++)
+                ASSERT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+        } else {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<float> output_ptr(output_mem, get_test_stream());
+
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<float> output_ptr_ref(ref_output_mem, get_test_stream());
+
+            for (size_t i = 0; i < output_ptr_ref.size(); i++)
+                ASSERT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+        }
     }
 
     void test_compressed_int4_scale_large_n_gemv(bool is_caching_test,
                                                  bool is_dynamic,
                                                  long int batch_num,
-                                                 bool is_dyn_quan = false) {
+                                                 bool is_dyn_quan = false,
+                                                 bool is_output_fp16 = true) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
 
@@ -2447,7 +2486,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
         auto input_data = rg.generate_random_1d<ov::float16>(batch_num * ifm_num, -1.0f, 1.0f);
         set_values(input_mem, input_data);
 
-        auto weigths_data = rg.generate_random_1d<uint8_t>(ofm_num * ifm_num / 2, 0, 10);
+        auto weigths_data = rg.generate_random_1d<uint8_t>(ofm_num * ifm_num / 2, 0, 5);
         set_values(weights_mem, weigths_data);
 
         auto scale_data = rg.generate_random_1d<ov::float16>(ofm_num * ifm_num / scales_group_size, -1.0f, 1.0f);
@@ -2470,7 +2509,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
                                        "",
                                        "scale",
                                        dcomp_zp_name,
-                                       data_types::f16,
+                                       is_output_fp16? data_types::f16 : data_types::f32,
                                        3,
                                        2);
 
@@ -2496,9 +2535,6 @@ class fully_connected_gpu_tests: public ::testing::Test {
             network.set_input_data("input", input_mem);
 
             auto outputs = network.execute();
-            // for (size_t i = 0; i < 100; i++) {
-            //     outputs = network.execute();
-            // }
             OPENVINO_ASSERT(outputs.size() == 1);
             OPENVINO_ASSERT(outputs.begin()->first == "fc_prim");
 
@@ -2559,14 +2595,26 @@ class fully_connected_gpu_tests: public ::testing::Test {
         ASSERT_EQ(outputs.size(), size_t(1));
         ASSERT_EQ(outputs.begin()->first, "fc_prim");
 
-        auto output_mem = outputs.begin()->second.get_memory();
-        cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
+        if (is_output_fp16) {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<ov::float16> output_ptr(output_mem, get_test_stream());
 
-        auto ref_output_mem = get_ref_results();
-        cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<ov::float16> output_ptr_ref(ref_output_mem, get_test_stream());
 
-        for (size_t i = 0; i < output_ptr_ref.size(); i++) {
-            EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+            for (size_t i = 0; i < output_ptr_ref.size(); i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+            }
+        } else {
+            auto output_mem = outputs.begin()->second.get_memory();
+            cldnn::mem_lock<float> output_ptr(output_mem, get_test_stream());
+
+            auto ref_output_mem = get_ref_results();
+            cldnn::mem_lock<float> output_ptr_ref(ref_output_mem, get_test_stream());
+
+            for (size_t i = 0; i < output_ptr_ref.size(); i++) {
+                EXPECT_NEAR(output_ptr_ref[i], output_ptr[i], 9.0) << "i = " << i;
+            }
         }
     }
 
@@ -5053,6 +5101,27 @@ TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_dynamic_batch) {
     this->test_compressed_int4_scale_dynamic_batch_gemv(false, 128, false);
 }
 
+// Test for fp32 output
+TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_scale_dynamic_b1g32_f32) {
+    this->test_compressed_int4_scale_gemv(false, true, 1, 32, false, false, false);
+}
+
+TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_scale_b1g32_f32) {
+    this->test_compressed_int4_scale_gemv(false, false, 1, 32, false, false, false);
+}
+
+TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_scale_relu_b1g128_f32) {
+    this->test_compressed_int4_scale_activation_gemv(false, false, 1, 128, false, false);
+}
+
+TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_scale_large_n_b1_f32) {
+    this->test_compressed_int4_scale_large_n_gemv(false, false, 1, false, false);
+}
+
+TEST_F(fully_connected_gpu_tests, gemv_compressed_int4_scale_large_n_dynamic_b1_f32) {
+    this->test_compressed_int4_scale_large_n_gemv(false, true, 1, false, false);
+}
+
 // Test weight zp for INT8 ASYM
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128_large_input_1025) {
     this->test_comp_weight_scale_zp(true, 1025, 1792, 4608, 128, 128, 1, WzpMode::AsymmetricScalar, WeightMode::Bit8, TargetDevice::SkipDgpu);