vllm-project · tlrmchlsmth · Oct 17, 2024 · Oct 15, 2024 · Oct 15, 2024 · Oct 15, 2024
diff --git a/csrc/quantization/compressed_tensors/int8_quant_kernels.cu b/csrc/quantization/compressed_tensors/int8_quant_kernels.cu
@@ -94,12 +94,12 @@ namespace vllm {
 template <typename scalar_t, typename scale_type>
 __global__ void static_scaled_int8_quant_kernel(
     scalar_t const* __restrict__ input, int8_t* __restrict__ out,
-    scale_type const* scale_ptr, const int hidden_size) {
+    scale_type const* scale_ptr, const size_t hidden_size) {
   int const tid = threadIdx.x;
   int const token_idx = blockIdx.x;
   scale_type const scale = *scale_ptr;
 
-  for (int i = tid; i < hidden_size; i += blockDim.x) {
+  for (size_t i = tid; i < hidden_size; i += blockDim.x) {
     out[token_idx * hidden_size + i] = float_to_int8_rn(
         static_cast<float>(input[token_idx * hidden_size + i]) / scale);
   }
@@ -109,13 +109,13 @@ template <typename scalar_t, typename scale_type, typename azp_type>
 __global__ void static_scaled_int8_azp_quant_kernel(
     scalar_t const* __restrict__ input, int8_t* __restrict__ out,
     scale_type const* scale_ptr, azp_type const* azp_ptr,
-    const int hidden_size) {
+    const size_t hidden_size) {
   int const tid = threadIdx.x;
   int const token_idx = blockIdx.x;
   scale_type const scale = *scale_ptr;
   azp_type const azp = *azp_ptr;
 
-  for (int i = tid; i < hidden_size; i += blockDim.x) {
+  for (size_t i = tid; i < hidden_size; i += blockDim.x) {
     auto const val = static_cast<float>(input[token_idx * hidden_size + i]);
     auto const quant_val = int32_to_int8(float_to_int32_rn(val / scale) + azp);
     out[token_idx * hidden_size + i] = quant_val;
@@ -125,13 +125,13 @@ __global__ void static_scaled_int8_azp_quant_kernel(
 template <typename scalar_t, typename scale_type>
 __global__ void dynamic_scaled_int8_quant_kernel(
     scalar_t const* __restrict__ input, int8_t* __restrict__ out,
-    scale_type* scale, const int hidden_size) {
+    scale_type* scale, const size_t hidden_size) {
   int const tid = threadIdx.x;
   int const token_idx = blockIdx.x;
   float absmax_val = 0.0f;
   float const zero = 0.0f;
 
-  for (int i = tid; i < hidden_size; i += blockDim.x) {
+  for (size_t i = tid; i < hidden_size; i += blockDim.x) {
     float val = static_cast<float>(input[token_idx * hidden_size + i]);
     val = val > zero ? val : -val;
     absmax_val = val > absmax_val ? val : absmax_val;
@@ -149,7 +149,7 @@ __global__ void dynamic_scaled_int8_quant_kernel(
   __syncthreads();
 
   float const tmp_scale = 127.0f / block_absmax_val;
-  for (int i = tid; i < hidden_size; i += blockDim.x) {
+  for (size_t i = tid; i < hidden_size; i += blockDim.x) {
     out[token_idx * hidden_size + i] = float_to_int8_rn(
         static_cast<float>(input[token_idx * hidden_size + i]) * tmp_scale);
   }
@@ -158,13 +158,13 @@ __global__ void dynamic_scaled_int8_quant_kernel(
 template <typename scalar_t, typename scale_type, typename azp_type>
 __global__ void dynamic_scaled_int8_azp_quant_kernel(
     scalar_t const* __restrict__ input, int8_t* __restrict__ out,
-    scale_type* scale, azp_type* azp, const int hidden_size) {
+    scale_type* scale, azp_type* azp, const size_t hidden_size) {
   int const token_idx = blockIdx.x;
 
   // Scan for the min and max value for this token
   float max_val = std::numeric_limits<float>::min();
   float min_val = std::numeric_limits<float>::max();
-  for (int i = threadIdx.x; i < hidden_size; i += blockDim.x) {
+  for (size_t i = threadIdx.x; i < hidden_size; i += blockDim.x) {
     auto val = static_cast<float>(input[token_idx * hidden_size + i]);
     max_val = std::max(max_val, val);
     min_val = std::min(min_val, val);
@@ -199,7 +199,7 @@ __global__ void dynamic_scaled_int8_azp_quant_kernel(
   azp_type const azp_val = azp_sh;
 
   // Quantize the values
-  for (int i = threadIdx.x; i < hidden_size; i += blockDim.x) {
+  for (size_t i = threadIdx.x; i < hidden_size; i += blockDim.x) {
     auto const val = static_cast<float>(input[token_idx * hidden_size + i]);
     auto const quant_val =
         int32_to_int8(float_to_int32_rn(val / scale_val) + azp_val);