vllm-project · ZJY0516 · Sep 5, 2025 · Sep 5, 2025
@@ -243,8 +243,8 @@ set(VLLM_EXT_SRC
   "csrc/sampler.cu"
   "csrc/cuda_view.cu"
   "csrc/quantization/gptq/q_gemm.cu"
-  "csrc/quantization/compressed_tensors/int8_quant_kernels.cu"
-  "csrc/quantization/fp8/common.cu"
+  "csrc/quantization/8bit/int8/int8_quant_kernels.cu"
+  "csrc/quantization/8bit/fp8/common.cu"
   "csrc/quantization/fused_kernels/fused_layernorm_dynamic_per_token_quant.cu"
   "csrc/quantization/gguf/gguf_kernel.cu"
   "csrc/quantization/activation_kernels.cu"
@@ -295,7 +295,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
     "csrc/sparse/cutlass/sparse_scaled_mm_entry.cu"
     "csrc/cutlass_extensions/common.cpp"
     "csrc/attention/mla/cutlass_mla_entry.cu"
-    "csrc/quantization/fp8/per_token_group_quant.cu")
+    "csrc/quantization/8bit/fp8/per_token_group_quant.cu")
 
   set_gencode_flags_for_srcs(
     SRCS "${VLLM_EXT_SRC}"

diff --git a/csrc/attention/attention_kernels.cuh b/csrc/attention/attention_kernels.cuh
@@ -28,10 +28,10 @@
 
 #ifdef USE_ROCM
   #include <hip/hip_bf16.h>
-  #include "../quantization/fp8/amd/quant_utils.cuh"
+  #include "../quantization/8bit/fp8/amd/quant_utils.cuh"
 typedef __hip_bfloat16 __nv_bfloat16;
 #else
-  #include "../quantization/fp8/nvidia/quant_utils.cuh"
+  #include "../quantization/8bit/fp8/nvidia/quant_utils.cuh"
 #endif
 
 #define MAX(a, b) ((a) > (b) ? (a) : (b))

diff --git a/csrc/cache_kernels.cu b/csrc/cache_kernels.cu
@@ -9,9 +9,9 @@
 #include "quantization/vectorization_utils.cuh"
 
 #ifdef USE_ROCM
-  #include "quantization/fp8/amd/quant_utils.cuh"
+  #include "quantization/8bit/fp8/amd/quant_utils.cuh"
 #else
-  #include "quantization/fp8/nvidia/quant_utils.cuh"
+  #include "quantization/8bit/fp8/nvidia/quant_utils.cuh"
 #endif
 
 #include <algorithm>

diff --git a/csrc/layernorm_quant_kernels.cu b/csrc/layernorm_quant_kernels.cu
@@ -6,7 +6,7 @@
  */
 
 #include "type_convert.cuh"
-#include "quantization/fp8/common.cuh"
+#include "quantization/8bit/fp8/common.cuh"
 #include "dispatch_utils.h"
 
 #include <torch/cuda.h>

diff --git a/csrc/quantization/fp8/amd/quant_utils.cuh → ...quantization/8bit/fp8/amd/quant_utils.cuh b/csrc/quantization/fp8/amd/quant_utils.cuh → ...quantization/8bit/fp8/amd/quant_utils.cuh
@@ -5,7 +5,7 @@
 #include <hip/hip_bf16.h>
 #include <hip/hip_bfloat16.h>
 
-#include "../../../attention/attention_dtypes.h"
+#include "attention/attention_dtypes.h"
 
 namespace vllm {
 #ifdef USE_ROCM

diff --git a/csrc/quantization/fp8/common.cu → csrc/quantization/8bit/fp8/common.cu b/csrc/quantization/fp8/common.cu → csrc/quantization/8bit/fp8/common.cu
@@ -1,6 +1,6 @@
 #include "common.cuh"
 #include "dispatch_utils.h"
-#include "../vectorization_utils.cuh"
+#include "../../vectorization_utils.cuh"
 #include <c10/cuda/CUDAGuard.h>
 #include <ATen/cuda/Exceptions.h>
 

diff --git a/csrc/quantization/fp8/common.cuh → csrc/quantization/8bit/fp8/common.cuh b/csrc/quantization/fp8/common.cuh → csrc/quantization/8bit/fp8/common.cuh
diff --git a/csrc/quantization/fp8/nvidia/quant_utils.cuh → ...ntization/8bit/fp8/nvidia/quant_utils.cuh b/csrc/quantization/fp8/nvidia/quant_utils.cuh → ...ntization/8bit/fp8/nvidia/quant_utils.cuh
@@ -1,6 +1,6 @@
 #pragma once
 
-#include "../../../attention/attention_dtypes.h"
+#include "attention/attention_dtypes.h"
 #include <assert.h>
 #include <float.h>
 #include <stdint.h>

diff --git a/...quantization/fp8/per_token_group_quant.cu → ...ization/8bit/fp8/per_token_group_quant.cu b/...quantization/fp8/per_token_group_quant.cu → ...ization/8bit/fp8/per_token_group_quant.cu
@@ -8,9 +8,9 @@
 
 #include <torch/all.h>
 
-#include "../vectorization.cuh"
-#include "../vectorization_utils.cuh"
-#include "../../dispatch_utils.h"
+#include "quantization/vectorization.cuh"
+#include "quantization/vectorization_utils.cuh"
+#include "dispatch_utils.h"
 
 __device__ __forceinline__ float GroupReduceMax(float val, const int tid) {
   unsigned mask = 0xffff;

diff --git a/.../compressed_tensors/int8_quant_kernels.cu → ...ntization/8bit/int8/int8_quant_kernels.cu b/.../compressed_tensors/int8_quant_kernels.cu → ...ntization/8bit/int8/int8_quant_kernels.cu
@@ -7,8 +7,8 @@
 
 #include <cmath>
 
-#include "../../dispatch_utils.h"
-#include "../vectorization_utils.cuh"
+#include "../../../dispatch_utils.h"
+#include "../../vectorization_utils.cuh"
 
 #ifndef USE_ROCM
   #include <cub/cub.cuh>

diff --git a/...quantization/per_token_group_quant_8bit.h → ...ization/8bit/per_token_group_quant_8bit.h b/...quantization/per_token_group_quant_8bit.h → ...ization/8bit/per_token_group_quant_8bit.h
@@ -1,8 +1,6 @@
 #pragma once
 #include <torch/all.h>
 
-// TODO(wentao): refactor the folder to 8bit, then includes fp8 and int8 folders
-// 8-bit per-token-group quantization helper used by both FP8 and INT8
 void per_token_group_quant_8bit(const torch::Tensor& input,
                                 torch::Tensor& output_q,
                                 torch::Tensor& output_s, int64_t group_size,

diff --git a/csrc/quantization/activation_kernels.cu b/csrc/quantization/activation_kernels.cu
@@ -7,7 +7,7 @@
 #include "../cuda_compat.h"
 #include "dispatch_utils.h"
 
-#include "quantization/fp8/common.cuh"
+#include "quantization/8bit/fp8/common.cuh"
 
 namespace vllm {
 

diff --git a/csrc/quantization/fused_kernels/quant_conversions.cuh b/csrc/quantization/fused_kernels/quant_conversions.cuh
@@ -6,7 +6,7 @@
 
 #include "quantization/vectorization.cuh"
 // TODO(luka/varun):refactor common.cuh to use this file instead
-#include "quantization/fp8/common.cuh"
+#include "quantization/8bit/fp8/common.cuh"
 
 namespace vllm {