fix dynamic Cfp8 computing error

rsmallblue · rsmallblue · commit 020610ec585a · 2025-09-15T23:20:34.000+08:00
diff --git a/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh b/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh
@@ -869,7 +869,7 @@ __global__ void append_decode_cache_int8_rope_qk_norm_kernel(
       local_max = __hmax(local_max, __habs(out_vec2[i]));
     }
 #pragma unroll
-    for (int m_offset = 16; m_offset > 1; m_offset /= 2) {
+    for (int m_offset = 16; m_offset > 0; m_offset /= 2) {
       local_max = __hmax(local_max, __shfl_xor_sync(0xffffffff, local_max, m_offset));
     }
 
diff --git a/tests/layers/test_append_attention.py b/tests/layers/test_append_attention.py
@@ -379,7 +379,7 @@ def init_tensor(self):
         )
         self.max_enc_len_this_time = paddle.to_tensor([self.max_enc_len_this_time], "int32", place=paddle.CPUPlace())
         self.max_dec_len_this_time = paddle.to_tensor([self.max_dec_len_this_time], "int32", place=paddle.CPUPlace())
-        self.seq_lens_this_time = self.seq_lens_encoder
+        self.seq_lens_this_time = copy.deepcopy(self.seq_lens_encoder)
 
         self.decoder_batch_ids = paddle.full([self.batch_size], 0, dtype="int32")
         self.decoder_tile_ids_per_batch = paddle.full([self.batch_size], 0, dtype="int32")
@@ -640,7 +640,7 @@ def test_all(self):
         )
         # encoder
         # self.seq_lens_encoder,self.seq_lens_decoder,self.max_enc_len_this_time,self.max_dec_len_this_time=get_encoder_decoder_len(self.batch_size,self.seq_len)
-        self.seq_lens_this_time = self.seq_lens_encoder
+        self.seq_lens_this_time = copy.deepcopy(self.seq_lens_encoder)
         if self.use_mask_offset:
             print("encoder mask_offset: ", self.mask_offset)
         self.cmp_append_attention(attn_mask=self.attention_mask)

Original file line number	Diff line number	Diff line change
`@@ -869,7 +869,7 @@ __global__ void append_decode_cache_int8_rope_qk_norm_kernel(`
`869`	`869`	`local_max = __hmax(local_max, __habs(out_vec2[i]));`
`870`	`870`	`}`
`871`	`871`	`#pragma unroll`
`872`		`- for (int m_offset = 16; m_offset > 1; m_offset /= 2) {`
	`872`	`+ for (int m_offset = 16; m_offset > 0; m_offset /= 2) {`
`873`	`873`	`local_max = __hmax(local_max, __shfl_xor_sync(0xffffffff, local_max, m_offset));`
`874`	`874`	`}`
`875`	`875`