fix Cfp8 for RL load

rsmallblue · rsmallblue · commit 45fef685ddd5 · 2025-09-16T20:30:12.000+08:00
diff --git a/fastdeploy/model_executor/layers/attention/attention.py b/fastdeploy/model_executor/layers/attention/attention.py
@@ -25,6 +25,7 @@
 
 from fastdeploy.config import FDConfig
 from fastdeploy.model_executor.layers.quantization.quant_base import QuantMethodBase
+from fastdeploy.model_executor.layers.quantization.kv_cache import KvCacheQuantzationTypes
 
 if TYPE_CHECKING:
     from fastdeploy.model_executor.forward_meta import ForwardMeta
@@ -102,6 +103,12 @@ def __init__(
 
         if fd_config.quant_config and hasattr(fd_config.quant_config, "kv_cache_quant_type"):
             self.kvcache_quant_method: QuantMethodBase = fd_config.quant_config.get_quant_method(self)
+
+            # set for RL model, as RL do not need load state dict
+            if fd_config.quant_config.kv_cache_quant_type == KvCacheQuantzationTypes.BLOCK_WISE_FP8:
+                self.cache_quant_type_str = "block_wise_fp8"
+                self.quant_max_bound = 448.0
+                self.quant_min_bound = -448.0                
         else:
             self.kvcache_quant_method = None