add new version #1328

zhiqchen-amd · zhaoan12-prc · commit a23851402e54 · 2025-11-10T12:27:25.000+08:00
diff --git a/3rdparty/aiter/aiter.patch b/3rdparty/aiter/aiter.patch
@@ -36,11 +36,10 @@
 
 --- aiter/jit/core.py
 +++ aiter/jit/core.py
-@@ -66,37 +66,18 @@
- AITER_ROOT_DIR = os.path.abspath(f"{this_dir}/../../")
- AITER_LOG_MORE = int(os.getenv("AITER_LOG_MORE", 0))
+@@ -168,36 +168,18 @@
+ # config_env end here
  
--find_aiter = importlib.util.find_spec("aiter")
+ find_aiter = importlib.util.find_spec("aiter")
 -if find_aiter is not None:
 -    if find_aiter.submodule_search_locations:
 -        package_path = find_aiter.submodule_search_locations[0]
@@ -82,4 +81,27 @@
  )
  
 
+--- aiter/__init__.py	
++++ aiter/__init__.py
+@@ -77,3 +77,4 @@
+ from .ops.trans_ragged_layout import *
+ from .ops.sample import *
+ from . import mla
++from . import paged_attn
+
+--- aiter/ops/gemm_op_a8w8.py
++++ aiter/ops/gemm_op_a8w8.py
+@@ -425,9 +425,11 @@
+     WQ: Tensor,
+     x_scale: Tensor,
+     w_scale: Tensor,
+-    dtype: torch.dtype = dtypes.bf16,
++    dtype: torch.dtype = None,
+     isBpreshuffled: bool = False,
+ ) -> torch.Tensor:
++    if dtype is None:
++        dtype = torch.bfloat16
+     assert dtype in [
+         dtypes.bf16,
+         dtypes.fp16,
 
diff --git a/open_source/bazel/arch_select.bzl b/open_source/bazel/arch_select.bzl
@@ -65,7 +65,7 @@ def subscribe_deps():
 def whl_deps():
     return select({
         "@//:using_cuda12": ["torch==2.6.0+cu126"],
-        "@//:using_rocm": ["pyrsmi", "amdsmi@https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis%2FAMD%2Famd_smi%2Fali%2Famd_smi.tar", "aiter@https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/RTP/aiter-0.1.5%2Bgit.007fe7aa.date.202510272053-py3-none-any.whl"],
+        "@//:using_rocm": ["pyrsmi", "amdsmi@https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis%2FAMD%2Famd_smi%2Fali%2Famd_smi.tar", "aiter@https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/aiter/0.1.6/aiter-0.1.6%2Bgit.329d07ba.date.202511061625-py3-none-any.whl"],
         "//conditions:default": ["torch==2.1.2"],
     })
 
diff --git a/open_source/deps/git.bzl b/open_source/deps/git.bzl
@@ -10,7 +10,7 @@ def git_deps():
     git_repository(
         name = "aiter_src",
         remote = "https://github.com/ROCm/aiter.git",
-        commit = "007fe7aa070d827bbdad398a578f403057a34e87", # add several ds shapes to fp4 tuned config (#1131)
+        commit = "329d07ba5d77f7d6b2a0557174288c5707f95e5f", # [Triton] DS a16w8 GEMM and fused reduce_rms_fp8_group_quant (#1328)
         recursive_init_submodules = True,
         patches = ["//3rdparty/aiter:aiter.patch", "//3rdparty/aiter:gemm_a8w8.patch"],
         patch_cmds = [
diff --git a/open_source/deps/http.bzl b/open_source/deps/http.bzl
@@ -60,9 +60,9 @@ def http_deps():
 
     http_archive(
         name = "aiter",
-        sha256 = "236197b1e55e546ab80a19a2f42cfb69075ff058c8b33341b70bc513e488febd",
+        sha256 = "cf1ac18a72e08f38133cf8891a1484d694b482925f1196dda398fd10c19586f2",
         urls = [
-	        "https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/RTP/aiter-0.1.5%2Bgit.007fe7aa.date.202510272053-py3-none-any.whl",
+	        "https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/aiter/0.1.6/aiter-0.1.6%2Bgit.329d07ba.date.202511061625-py3-none-any.whl",
 	    ],
         type = "zip",
         build_file = clean_dep("//:BUILD.aiter"),
diff --git a/open_source/deps/requirements_lock_rocm.txt b/open_source/deps/requirements_lock_rocm.txt
@@ -114,8 +114,8 @@ aiosignal==1.3.1 \
     --hash=sha256:54cd96e15e1649b75d6c87526a6ff0b6c1b0dd3459f43d9ca11d48c339b68cfc \
     --hash=sha256:f8376fb07dd1e86a584e4fcdec80b36b7f81aac666ebc724e2c090300dd83b17
     # via aiohttp
-aiter @ https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/RTP/aiter-0.1.5%2Bgit.007fe7aa.date.202510272053-py3-none-any.whl \
-    --hash=sha256:236197b1e55e546ab80a19a2f42cfb69075ff058c8b33341b70bc513e488febd
+aiter @ https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/aiter/0.1.6/aiter-0.1.6%2Bgit.329d07ba.date.202511061625-py3-none-any.whl \
+    --hash=sha256:cf1ac18a72e08f38133cf8891a1484d694b482925f1196dda398fd10c19586f2
     # via -r open_source/deps/requirements_rocm.txt
 aliyun-python-sdk-core==2.15.2 \
     --hash=sha256:54f66a53e193c61c5e16ea4505a0cab43543f8ad2ef22833f69c4d5e5151c17d
diff --git a/open_source/deps/requirements_rocm.txt b/open_source/deps/requirements_rocm.txt
@@ -4,5 +4,5 @@ https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.1/torch-2.4.1%2Brocm6.4.1.gi
 https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.1/torchvision-0.19.0%2Brocm6.4.1.git4d41ad71-cp310-cp310-linux_x86_64.whl
 pyrsmi
 pyyaml
-https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/RTP/aiter-0.1.5%2Bgit.007fe7aa.date.202510272053-py3-none-any.whl
+https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis/AMD/aiter/0.1.6/aiter-0.1.6%2Bgit.329d07ba.date.202511061625-py3-none-any.whl
 https://sinian-metrics-platform.oss-cn-hangzhou.aliyuncs.com/kis%2FAMD%2Famd_smi%2Fali%2Famd_smi.tar
diff --git a/rtp_llm/cpp/rocm/custom_ar/custom_ar_comm.cc b/rtp_llm/cpp/rocm/custom_ar/custom_ar_comm.cc
@@ -43,16 +43,16 @@ bool CustomAllReduceComm::checkAllReduceAvailable(size_t elts_total_num, DataTyp
 
 void CustomAllReduceComm::allReduce(torch::Tensor& input_tensor, torch::Tensor& output_tensor) {
     if (at::hip::currentStreamCaptureStatusMayInitCtx() != at::hip::CaptureStatus::None) {
-        aiter::all_reduce_reg(fa_, input_tensor, output_tensor, false);
+        aiter::all_reduce(fa_, input_tensor, output_tensor, false, std::nullopt);
     } else {
-        aiter::all_reduce_unreg(fa_, input_tensor, buffer_, output_tensor);
+         aiter::all_reduce(fa_, input_tensor, output_tensor, false, buffer_);
     }
 }
 
 void CustomAllReduceComm::registerGraphBuffers() {
     auto handle_and_offset = aiter::get_graph_buffer_ipc_meta(fa_); // tuple<tensor, vector<int64_t>> -> vector<tensor> size=2
-    auto handle = handle_and_offset[0];
-    auto offset = handle_and_offset[1];
+    auto handle = std::get<0>(handle_and_offset);
+    auto offset = std::get<1>(handle_and_offset);
 
     auto _handles = all_gather(handle.data_ptr(), handle.element_size() * handle.numel(), at::hip::getCurrentHIPStream().stream());
     auto _offsets = all_gather(offset.data_ptr(), offset.element_size() * offset.numel(), at::hip::getCurrentHIPStream().stream());
diff --git a/rtp_llm/cpp/rocm/rocmFmhaWrapper.cc b/rtp_llm/cpp/rocm/rocmFmhaWrapper.cc
@@ -221,13 +221,12 @@ uint32_t rocmFmhaWrapper::runCKFmha(void*  q,
                              // nullptr,                        // o_acc_buf.GetDeviceBuffer(),
                              softmax_lse_,
                              output,
+                             seqstart_q, //seqstart_q_ptr
+                             seqstart_k, //seqstart_k_ptr
+                             nullptr, //seqlen_q_ptr
+                             nullptr, //seqlen_k_ptr
                              nullptr, //cu_seqlen_q_ptr
-                             nullptr, //cu_seqlen_kv_ptr
-                             seqstart_q,
-                             seqstart_k,
-                             nullptr,  // seqlen_kpads
-                             nullptr, //seqstart_padded_q_ptr
-                             nullptr, //seqstart_padded_k_ptr
+                             nullptr, // cu_seqlen_k_ptr
                              shape_seqlen_q,
                              shape_seqlen_k,
                              batch,
@@ -489,13 +488,12 @@ uint32_t rocmFmhaWrapper::runCKFmhaV2(void*  q,
                              // nullptr,                        // o_acc_buf.GetDeviceBuffer(),
                              softmax_lse_,
                              output,
+                             seqstart_q, //seqstart_q_ptr
+                             seqstart_k, //seqstart_k_ptr
+                             nullptr, //seqlen_q_ptr
+                             nullptr, //seqlen_k_ptr
                              nullptr, //cu_seqlen_q_ptr
-                             nullptr, //cu_seqlen_kv_ptr
-                             seqstart_q,
-                             seqstart_k,
-                             nullptr,  // seqlen_kpads
-                             nullptr, //seqstart_padded_q_ptr
-                             nullptr, //seqstart_padded_k_ptr
+                             nullptr, // cu_seqlen_k_ptr
                              shape_seqlen_q,
                              shape_seqlen_k,
                              batch,
@@ -759,13 +757,12 @@ uint32_t rocmFmhaWrapper::runCKFmhaMLA(void*  q,
                              // nullptr,                        // o_acc_buf.GetDeviceBuffer(),
                              softmax_lse_,
                              output,
+                             seqstart_q, //seqstart_q_ptr
+                             seqstart_k, //seqstart_k_ptr
+                             nullptr, //seqlen_q_ptr
+                             nullptr, //seqlen_k_ptr
                              nullptr, //cu_seqlen_q_ptr
-                             nullptr, //cu_seqlen_kv_ptr
-                             seqstart_q,
-                             seqstart_k,
-                             nullptr,  // seqlen_kpads
-                             nullptr, //seqstart_padded_q_ptr
-                             nullptr, //seqstart_padded_k_ptr
+                             nullptr, // cu_seqlen_k_ptr
                              shape_seqlen_q,
                              shape_seqlen_k,
                              batch,