tmp

bukejiyu · bukejiyu · commit f081a54abbf8 · 2025-10-30T09:42:09.000Z
diff --git a/tests/model_loader/test_common_model.py b/tests/model_loader/test_common_model.py
@@ -23,11 +23,8 @@
     sys.path.insert(0, project_root)
 
 from tests.model_loader.utils import (
-    check_tokens_id_and_text_close,
     form_model_get_output_topp0,
-    form_model_get_output_topp1,
     get_paddle_model_path,
-    get_torch_model_path,
     run_with_timeout,
 )
 
@@ -36,59 +33,43 @@
 
 prompts = ["解释下”温故而知新”", "Hello, how are you?"]
 
+# {id,baseline}
+baseline = {
+    "ernie-4_5-21b-a3b-bf16-paddle.wint8.default": "test",
+}
 
 model_param_map = {
-    "Qwen3-0.6B": {
-        "max_num_seqs": 1,
-        "quantizations": ["None", "wint8", "wint4"],
-    },
+    # "Qwen3-0.6B": {
+    #     "max_num_seqs": 1,
+    #     "quantizations": ["None", "wint8", "wint4"],
+    # },
     "ernie-4_5-21b-a3b-bf16-paddle": {
         "max_num_seqs": 1,
         "tensor_parallel_size": 2,
         "quantizations": [
             "wint8",
         ],
     },
-    "Qwen2-7B-Instruct": {
-        "max_num_seqs": 1,
-        "quantizations": ["wint4"],
-    },
-    "Qwen2.5-VL-7B-Instruct": {
-        "max_num_seqs": 1,
-        "quantizations": ["wint4"],
-        "is_mm": True,
-        "torch_model_name_or_path": "Qwen2.5-VL-7B-Instruct-PT",
-    },
-    "Qwen3-30B-A3B": {
-        "tensor_parallel_size": 2,
-        "max_num_seqs": 1,
-        "quantizations": [
-            {
-                "quant_type": "block_wise_fp8",
-                "backend": "triton",
-                "env": {"DG_NVCC_OVERRIDE_CPP_STANDARD": "17"},
-            },
-            {
-                "quant_type": "block_wise_fp8",
-                "backend": "deepgemm",
-                "env": {"DG_NVCC_OVERRIDE_CPP_STANDARD": "17", "FD_USE_DEEP_GEMM": "1"},
-            },
-        ],
-    },
-    "DeepSeek-V3-0324": {
-        "tensor_parallel_size": 2,
-        "quantizations": [
-            {
-                "quant_type": "wint4",
-                "env": {
-                    "FD_ATTENTION_BACKEND": "MLA_ATTN",
-                    "FLAGS_mla_use_tensorcore": "1",
-                    "FLAGS_flash_attn_version": "3",
-                    "FD_USE_MACHETE": "1",
-                },
-            },
-        ],
-    },
+    # "Qwen2-7B-Instruct": {
+    #     "max_num_seqs": 1,
+    #     "quantizations": ["wint4"],
+    # },
+    # "Qwen3-30B-A3B": {
+    #     "tensor_parallel_size": 2,
+    #     "max_num_seqs": 1,
+    #     "quantizations": [
+    #         {
+    #             "quant_type": "block_wise_fp8",
+    #             "backend": "triton",
+    #             "env": {"DG_NVCC_OVERRIDE_CPP_STANDARD": "17"},
+    #         },
+    #         {
+    #             "quant_type": "block_wise_fp8",
+    #             "backend": "deepgemm",
+    #             "env": {"DG_NVCC_OVERRIDE_CPP_STANDARD": "17", "FD_USE_DEEP_GEMM": "1"},
+    #         },
+    #     ],
+    # },
 }
 
 
@@ -109,15 +90,14 @@
                 quant,
                 cfg.get("max_tokens", 32),
                 env,
-                cfg.get("is_mm", False),
                 marks=[pytest.mark.core_model],
                 id=f"{model}.{quant}.{backend}",
             )
         )
 
 
 @pytest.mark.parametrize(
-    "model_name_or_path,torch_model_name_or_path,tensor_parallel_size,max_num_seqs,max_model_len,quantization,max_tokens,env,is_mm",
+    "model_name_or_path,torch_model_name_or_path,tensor_parallel_size,max_num_seqs,max_model_len,quantization,max_tokens,env",
     params,
 )
 def test_common_model(
@@ -130,31 +110,17 @@ def test_common_model(
     max_tokens: int,
     quantization: str,
     env,
-    is_mm: bool,
+    request,
     monkeypatch,
 ) -> None:
+    print("当前用例 id:", request.node.callspec.id)
     model_path = get_paddle_model_path(model_name_or_path)
     if env:
         for k, v in env.items():
             monkeypatch.setenv(k, v)
 
-    form_model_get_output = form_model_get_output_topp0 if not is_mm else form_model_get_output_topp1
-    fd_outputs_v0 = run_with_timeout(
-        target=form_model_get_output,
-        args=(
-            fd_runner,
-            model_path,
-            tensor_parallel_size,
-            max_num_seqs,
-            max_model_len,
-            max_tokens,
-            quantization,
-            "default",
-            FD_ENGINE_QUEUE_PORT,
-            prompts,
-            FD_CACHE_QUEUE_PORT,
-        ),
-    )
+    form_model_get_output = form_model_get_output_topp0
+
     fd_outputs_v1 = run_with_timeout(
         target=form_model_get_output,
         args=(
@@ -171,35 +137,11 @@ def test_common_model(
             FD_CACHE_QUEUE_PORT,
         ),
     )
+    print(fd_outputs_v1)
 
-    check_tokens_id_and_text_close(
-        outputs_0_lst=fd_outputs_v0,
-        outputs_1_lst=fd_outputs_v1,
-        name_0="default loader",
-        name_1="default_v1 loader",
-    )
-
-    if torch_model_name_or_path != "":
-        torch_model_path = get_torch_model_path(torch_model_name_or_path)
-        fd_outputs_v1_torch = run_with_timeout(
-            target=form_model_get_output,
-            args=(
-                fd_runner,
-                torch_model_path,
-                tensor_parallel_size,
-                max_num_seqs,
-                max_model_len,
-                max_tokens,
-                quantization,
-                "default_v1",
-                FD_ENGINE_QUEUE_PORT,
-                prompts,
-                FD_CACHE_QUEUE_PORT,
-            ),
-        )
-        check_tokens_id_and_text_close(
-            outputs_0_lst=fd_outputs_v1,
-            outputs_1_lst=fd_outputs_v1_torch,
-            name_0="default loader",
-            name_1="default_v1 loader",
-        )
+    # check_tokens_id_and_text_close(
+    #     outputs_0_lst=fd_outputs_v0,
+    #     outputs_1_lst=fd_outputs_v1,
+    #     name_0="default loader",
+    #     name_1="default_v1 loader",
+    # )