add fullandpiecesewise graph.

wangxiaoxin-sherie · wangxiaoxin-sherie · commit 65e37c7d578e · 2025-10-13T14:31:59.000+08:00
Signed-off-by: wangxiaoxin-sherie &lt;wangxiaoxin7@huawei.com&gt;
diff --git a/vllm_ascend/attention/attention_v1.py b/vllm_ascend/attention/attention_v1.py
@@ -39,6 +39,7 @@
 from vllm_ascend.utils import (ACL_FORMAT_FRACTAL_NZ, aligned_16, is_310p,
                                nd_to_nz_2d, nd_to_nz_spec)
 
+from ..utils import weak_ref_tensors
 
 class AscendAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
@@ -140,6 +141,9 @@ class AscendMetadata:
     seq_lens: torch.Tensor = None
 
     query_start_loc: torch.Tensor = None
+    seq_lens_list: List[int] = None
+
+    query_start_loc_list: List[int] = None
     query_lens: torch.Tensor = None
     # Maximum query length in the batch (None for decoding).
     max_query_len: Optional[int] = None
@@ -207,8 +211,6 @@ def build(
         query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu[:
                                                                        num_reqs
                                                                        + 1]
-        query_start_loc = query_start_loc_cpu.to(self.device,
-                                                 non_blocking=True)
 
         if is_310p():
             if attn_state == AscendAttentionState.PrefillNoCache:
@@ -223,8 +225,10 @@ def build(
         attn_metadata = AscendMetadata(
             num_actual_tokens=num_actual_tokens,
             block_tables=block_table,
-            query_start_loc=query_start_loc,
+            query_start_loc=query_start_loc_cpu,
+            query_start_loc_list=query_start_loc_cpu[1:].cpu().int().tolist(),
             query_lens=query_lens,
+            seq_lens_list=seq_lens.cpu().int().tolist(),
             seq_lens=seq_lens,
             max_query_len=common_attn_metadata.max_query_len,
             slot_mapping=slot_mapping,
@@ -391,51 +395,151 @@ def _forward_decode_only(
         else:
             graph_params = get_graph_params()
             forward_context: ForwardContext = get_forward_context()
-            num_tokens = query.shape[0]
             if forward_context.capturing:
-                stream = torch_npu.npu.current_stream()
-
-                event = torch.npu.ExternalEvent()
-                event.wait(stream)
-                event.reset(stream)
-                graph_params.events[num_tokens].append(event)
-
-                graph_params.attn_params[num_tokens].append((
-                    query,
-                    self.key_cache,
-                    self.value_cache,
-                    self.num_kv_heads,
-                    self.num_heads,
-                    self.scale,
-                    attn_metadata.block_tables,
-                    attn_metadata.seq_lens,
-                    output,
-                ))
-
-                torch.npu.graph_task_group_begin(stream)
-                torch_npu._npu_paged_attention(
-                    query=query,
-                    key_cache=self.key_cache,
-                    value_cache=self.value_cache,
-                    num_kv_heads=self.num_kv_heads,
-                    num_heads=self.num_heads,
-                    scale_value=self.scale,
-                    block_table=attn_metadata.block_tables,
-                    context_lens=attn_metadata.seq_lens,
-                    out=output)
-                handle = torch.npu.graph_task_group_end(stream)
-                graph_params.handles[num_tokens].append(handle)
+                if torch.version.cann.startswith("8.3"):
+                    # Prepare tensors for attention output
+                    query_start_loc = attn_metadata.query_start_loc_list
+                    seq_lens = attn_metadata.seq_lens_list
+                    num_tokens = query_start_loc[-1]
+                    query = query[:num_tokens]
+
+                    # Get workspace from cache or calculate it if not present.
+                    workspace = graph_params.workspaces.get(num_tokens)
+                    num_block, block_size, _, _ = self.key_cache.shape  # type: ignore
+                    key = self.key_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    value = self.value_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    softmax_lse = torch.empty(num_tokens,
+                                            dtype=query.dtype,
+                                            device=query.device)
+                    if workspace is None:
+                        workspace = torch_npu._npu_fused_infer_attention_score_get_max_workspace(
+                            query=query,
+                            key=key,
+                            value=value,
+                            block_table=attn_metadata.block_tables,
+                            input_layout="TND",
+                            block_size=block_size,
+                            actual_seq_lengths=query_start_loc,
+                            actual_seq_lengths_kv=seq_lens,
+                            num_key_value_heads=self.num_kv_heads,
+                            num_heads=self.num_heads,
+                            sparse_mode=0,
+                            scale=self.scale,)
+                        graph_params.workspaces[num_tokens] = weak_ref_tensors(workspace)
+                    
+                    # Handle graph capturing mode
+                    stream = torch_npu.npu.current_stream()
+
+                    event = torch.npu.ExternalEvent()
+                    event.wait(stream)
+                    event.reset(stream)
+                    graph_params.events[num_tokens].append(event)
+                    graph_params.attn_params[num_tokens].append((
+                        weak_ref_tensors(query),
+                        weak_ref_tensors(key),
+                        weak_ref_tensors(value),
+                        weak_ref_tensors(attn_metadata.block_tables),
+                        block_size,
+                        seq_lens,
+                        query_start_loc,
+                        self.num_kv_heads,
+                        self.num_heads,
+                        self.scale,
+                        weak_ref_tensors(output),
+                        weak_ref_tensors(softmax_lse)
+                    ))
+
+                    torch.npu.graph_task_group_begin(stream)
+                    torch_npu.npu_fused_infer_attention_score.out(
+                        query=query,
+                        key=key,
+                        value=value,
+                        block_table=attn_metadata.block_tables,
+                        input_layout="TND",
+                        block_size=block_size,
+                        actual_seq_lengths=query_start_loc,
+                        actual_seq_lengths_kv=seq_lens,
+                        num_key_value_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale=self.scale,
+                        sparse_mode=0,
+                        workspace=workspace,
+                        out=[output, softmax_lse],
+                    )
+                
+                    output = output.view(num_tokens, self.num_heads,
+                                            self.head_size)
+                    
+                    handle = torch.npu.graph_task_group_end(stream)
+                    graph_params.handles[num_tokens].append(handle)
+                else:
+                    stream = torch_npu.npu.current_stream()
+
+                    event = torch.npu.ExternalEvent()
+                    event.wait(stream)
+                    event.reset(stream)
+                    graph_params.events[num_tokens].append(event)
+
+                    graph_params.attn_params[num_tokens].append((
+                        weak_ref_tensors(query),
+                        weak_ref_tensors(self.key_cache),
+                        weak_ref_tensors(self.value_cache),
+                        self.num_kv_heads,
+                        self.num_heads,
+                        self.scale,
+                        weak_ref_tensors(attn_metadata.block_tables),
+                        attn_metadata.seq_lens,
+                        weak_ref_tensors(output),
+                    ))
+
+                    torch.npu.graph_task_group_begin(stream)
+                    torch_npu._npu_paged_attention(
+                        query=query,
+                        key_cache=self.key_cache,
+                        value_cache=self.value_cache,
+                        num_kv_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale_value=self.scale,
+                        block_table=attn_metadata.block_tables,
+                        context_lens=attn_metadata.seq_lens,
+                        out=output)
+                    handle = torch.npu.graph_task_group_end(stream)
+                    graph_params.handles[num_tokens].append(handle)
             else:
-                torch_npu._npu_paged_attention(
-                    query=query,
-                    key_cache=self.key_cache,
-                    value_cache=self.value_cache,
-                    num_kv_heads=self.num_kv_heads,
-                    num_heads=self.num_heads,
-                    scale_value=self.scale,
-                    block_table=attn_metadata.block_tables,
-                    context_lens=attn_metadata.seq_lens,
-                    out=output)
+                if torch.version.cann.startswith("8.3"):
+                    num_block, block_size, _, _ = self.key_cache.shape  # type: ignore
+                    key = self.key_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    value = self.value_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    
+                    output, _ = torch_npu.npu_fused_infer_attention_score(
+                        query=query,
+                        key=key,
+                        value=value,
+                        block_table=attn_metadata.block_tables,
+                        input_layout="TND",
+                        block_size=block_size,
+                        actual_seq_lengths=attn_metadata.query_start_loc_list,
+                        actual_seq_lengths_kv=attn_metadata.seq_lens_list,
+                        num_key_value_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale=self.scale,
+                        sparse_mode=0
+                    )
+                else:
+                    torch_npu._npu_paged_attention(
+                        query=query,
+                        key_cache=self.key_cache,
+                        value_cache=self.value_cache,
+                        num_kv_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale_value=self.scale,
+                        block_table=attn_metadata.block_tables,
+                        context_lens=attn_metadata.seq_lens,
+                        out=output)
         return output
 
     def _forward_v1_style(
diff --git a/vllm_ascend/compilation/acl_graph.py b/vllm_ascend/compilation/acl_graph.py
@@ -199,34 +199,75 @@ def update_attn_params(update_stream, forward_context, runtime_shape):
             graph_params.handles[runtime_shape],
             graph_params.events[runtime_shape],
     ):
-        (
-            query,
-            key_cache,
-            value_cache,
-            num_kv_heads,
-            num_heads,
-            scale,
-            block_table,
-            seq_lens,
-            output,
-        ) = param
-        # block_table = forward_context.attn_metadata[key].block_tables
-        seq_lens = forward_context.attn_metadata[key].seq_lens
-
-        with torch.npu.stream(update_stream):
-            torch.npu.graph_task_update_begin(update_stream, handle)
-            torch_npu._npu_paged_attention(query=query,
-                                           key_cache=key_cache,
-                                           value_cache=value_cache,
-                                           num_kv_heads=num_kv_heads,
-                                           num_heads=num_heads,
-                                           scale_value=scale,
-                                           block_table=block_table,
-                                           context_lens=seq_lens,
-                                           out=output)
-            torch.npu.graph_task_update_end(update_stream)
-
-            event.record(update_stream)
+        if torch.version.cann.startswith("8.3"):
+            (
+                query,
+                key_cache,
+                value,
+                block_tables,
+                block_size,
+                seq_lens,
+                query_start_loc,
+                num_kv_heads,
+                num_heads,
+                scale,
+                attn_output,
+                softmax_lse
+            ) = param
+
+            # block_table = forward_context.attn_metadata[key].block_tables
+            seq_lens = forward_context.attn_metadata[key].seq_lens
+
+            with torch.npu.stream(update_stream):
+                torch.npu.graph_task_update_begin(update_stream, handle)
+                torch_npu.npu_fused_infer_attention_score.out(
+                    query=query,
+                    key=key_cache,
+                    value=value,
+                    block_table=block_tables,
+                    input_layout="TND",
+                    block_size=block_size,
+                    actual_seq_lengths=query_start_loc,
+                    actual_seq_lengths_kv=seq_lens,
+                    num_key_value_heads=num_kv_heads,
+                    num_heads=num_heads,
+                    scale=scale,
+                    sparse_mode=0,
+                    workspace=graph_params.workspaces.get(runtime_shape),
+                    out=[attn_output, softmax_lse],
+                )
+                torch.npu.graph_task_update_end(update_stream)
+
+                event.record(update_stream)
+        else:
+            (
+                query,
+                key_cache,
+                value_cache,
+                num_kv_heads,
+                num_heads,
+                scale,
+                block_table,
+                seq_lens,
+                output,
+            ) = param
+            # block_table = forward_context.attn_metadata[key].block_tables
+            seq_lens = forward_context.attn_metadata[key].seq_lens
+
+            with torch.npu.stream(update_stream):
+                torch.npu.graph_task_update_begin(update_stream, handle)
+                torch_npu._npu_paged_attention(query=query,
+                                            key_cache=key_cache,
+                                            value_cache=value_cache,
+                                            num_kv_heads=num_kv_heads,
+                                            num_heads=num_heads,
+                                            scale_value=scale,
+                                            block_table=block_table,
+                                            context_lens=seq_lens,
+                                            out=output)
+                torch.npu.graph_task_update_end(update_stream)
+
+                event.record(update_stream)
 
 
 @dataclass
diff --git a/vllm_ascend/platform.py b/vllm_ascend/platform.py
@@ -178,7 +178,11 @@ def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
 
         compilation_config.cudagraph_num_of_warmups = 1
 
-        if compilation_config.level not in [
+        if compilation_config.level == CompilationLevel.PIECEWISE:
+            logger.warning(
+                "NEW  NPU does not support %s compilation level. Setting CUDAGraphMode to NONE",
+                compilation_config.level)
+        elif compilation_config.level not in [
                 CompilationLevel.NO_COMPILATION, CompilationLevel.PIECEWISE
         ]:
             logger.warning(
@@ -231,6 +235,18 @@ def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
                 "vllm.unified_ascend_attention_with_output", "vllm.mla_forward"
             ])
             update_aclgraph_sizes(vllm_config)
+        elif compilation_config.cudagraph_mode == CUDAGraphMode.FULL_AND_PIECEWISE:
+            logger.info(
+                "PIECEWISE compilation enabled on NPU. use_inductor not supported - "
+                "using only ACL Graph mode")
+            assert compilation_config.level == CompilationLevel.PIECEWISE, \
+                "When enabling piecewise aclgraph, please make sure compilation_config.level == CompilationLevel.PIECEWISE and compilation_config.cudagraph_mode == CUDAGraphMode.PIECEWISE"
+            compilation_config.set_splitting_ops_for_v1()
+            compilation_config.use_inductor = False
+            compilation_config.splitting_ops.extend([
+                "vllm.unified_ascend_attention_with_output", "vllm.mla_forward"
+            ])
+            update_aclgraph_sizes(vllm_config)
         elif compilation_config.cudagraph_mode == CUDAGraphMode.FULL_DECODE_ONLY:
             logger.info(
                 "FULL_DECODE_ONLY compilation enabled on NPU. use_inductor not supported - "
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -1406,8 +1406,10 @@ def _prepare_inputs(
             common_attn_metadata = AscendCommonAttentionMetadata(
                 query_start_loc=self.query_start_loc[:num_reqs + 1],
                 query_start_loc_cpu=self.query_start_loc_cpu[:num_reqs + 1],
+                query_start_loc_list=self.query_start_loc_cpu[:num_reqs + 1].cpu().int().tolist(),
                 seq_lens_cpu=self.seq_lens_cpu,
                 seq_lens=self.seq_lens_cpu[:num_reqs],
+                seq_lens_list=self.seq_lens_cpu[:num_reqs].cpu().int().tolist(),
                 num_reqs=num_reqs,
                 num_actual_tokens=total_num_scheduled_tokens,
                 actual_seq_lengths_q=self.actual_seq_lengths_q,
@@ -2172,6 +2174,9 @@ def _build_attention_metadata(self, create_mixed_batch, num_reqs,
             self.seq_lens_np[:num_reqs] = seq_lens
             self.seq_lens_np[num_reqs:] = 0
 
+            self.query_start_loc[:num_reqs + 1] = num_tokens
+            self.query_start_loc_cpu[:num_reqs + 1] = num_tokens
+
             num_computed_tokens_cpu = (
                 self.input_batch.num_computed_tokens_cpu_tensor[:num_reqs])