add fullandpiecesewise graph.

wangxiaoxin-sherie · wangxiaoxin-sherie · commit 27b7aabce5eb · 2025-10-16T15:19:06.000+08:00
Signed-off-by: wangxiaoxin-sherie &lt;wangxiaoxin7@huawei.com&gt;
diff --git a/vllm_ascend/attention/attention_v1.py b/vllm_ascend/attention/attention_v1.py
@@ -43,7 +43,6 @@
 
 from ..utils import weak_ref_tensors
 
-
 class AscendAttentionBackend(AttentionBackend):
     accept_output_buffer: bool = True
 
@@ -144,6 +143,9 @@ class AscendMetadata:
     seq_lens: torch.Tensor = None
 
     query_start_loc: torch.Tensor = None
+    seq_lens_list: List[int] = None
+
+    query_start_loc_list: List[int] = None
     query_lens: torch.Tensor = None
     # Maximum query length in the batch (None for decoding).
     max_query_len: Optional[int] = None
@@ -211,8 +213,6 @@ def build(
         query_start_loc_cpu = common_attn_metadata.query_start_loc_cpu[:
                                                                        num_reqs
                                                                        + 1]
-        query_start_loc = query_start_loc_cpu.to(self.device,
-                                                 non_blocking=True)
 
         if is_310p():
             if attn_state == AscendAttentionState.PrefillNoCache:
@@ -227,8 +227,10 @@ def build(
         attn_metadata = AscendMetadata(
             num_actual_tokens=num_actual_tokens,
             block_tables=block_table,
-            query_start_loc=query_start_loc,
+            query_start_loc=query_start_loc_cpu,
+            query_start_loc_list=query_start_loc_cpu[1:].cpu().int().tolist(),
             query_lens=query_lens,
+            seq_lens_list=seq_lens.cpu().int().tolist(),
             seq_lens=seq_lens,
             max_query_len=common_attn_metadata.max_query_len,
             slot_mapping=slot_mapping,
@@ -397,13 +399,136 @@ def _forward_decode_only(
         else:
             graph_params = get_graph_params()
             forward_context: ForwardContext = get_forward_context()
-            num_tokens = query.shape[0]
             if forward_context.capturing:
-                if self.torch_npu_check:
+                if torch.version.cann.startswith("8.3"):
+                    # Prepare tensors for attention output
+                    query_start_loc = attn_metadata.query_start_loc_list
+                    seq_lens = attn_metadata.seq_lens_list
+                    num_tokens = query_start_loc[-1]
+                    query = query[:num_tokens]
+
                     # Get workspace from cache or calculate it if not present.
                     workspace = graph_params.workspaces.get(num_tokens)
+                    num_block, block_size, _, _ = self.key_cache.shape  # type: ignore
+                    key = self.key_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    value = self.value_cache.view(  # type: ignore
+                        num_block, block_size, -1)
+                    softmax_lse = torch.empty(num_tokens,
+                                            dtype=query.dtype,
+                                            device=query.device)
                     if workspace is None:
-                        workspace = torch_npu._npu_paged_attention_get_workspace(
+                        workspace = torch_npu._npu_fused_infer_attention_score_get_max_workspace(
+                            query=query,
+                            key=key,
+                            value=value,
+                            block_table=attn_metadata.block_tables,
+                            input_layout="TND",
+                            block_size=block_size,
+                            actual_seq_lengths=query_start_loc,
+                            actual_seq_lengths_kv=seq_lens,
+                            num_key_value_heads=self.num_kv_heads,
+                            num_heads=self.num_heads,
+                            sparse_mode=0,
+                            scale=self.scale,)
+                        update_graph_params_workspaces(num_tokens, workspace)
+                    
+                    # Handle graph capturing mode
+                    stream = torch_npu.npu.current_stream()
+
+                    event = torch.npu.ExternalEvent()
+                    event.wait(stream)
+                    event.reset(stream)
+                    graph_params.events[num_tokens].append(event)
+                    graph_params.attn_params[num_tokens].append((
+                        weak_ref_tensors(query),
+                        weak_ref_tensors(key),
+                        weak_ref_tensors(value),
+                        weak_ref_tensors(attn_metadata.block_tables),
+                        block_size,
+                        seq_lens,
+                        query_start_loc,
+                        self.num_kv_heads,
+                        self.num_heads,
+                        self.scale,
+                        weak_ref_tensors(output),
+                        weak_ref_tensors(softmax_lse)
+                    ))
+
+                    torch.npu.graph_task_group_begin(stream)
+                    torch_npu.npu_fused_infer_attention_score.out(
+                        query=query,
+                        key=key,
+                        value=value,
+                        block_table=attn_metadata.block_tables,
+                        input_layout="TND",
+                        block_size=block_size,
+                        actual_seq_lengths=query_start_loc,
+                        actual_seq_lengths_kv=seq_lens,
+                        num_key_value_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale=self.scale,
+                        sparse_mode=0,
+                        workspace=workspace,
+                        out=[output, softmax_lse],
+                    )
+                
+                    output = output.view(num_tokens, self.num_heads,
+                                            self.head_size)
+                    
+                    handle = torch.npu.graph_task_group_end(stream)
+                    graph_params.handles[num_tokens].append(handle)
+                else:
+                    if self.torch_npu_check:
+                    # Get workspace from cache or calculate it if not present.
+                        workspace = graph_params.workspaces.get(num_tokens)
+                        if workspace is None:
+                            workspace = torch_npu._npu_paged_attention_get_workspace(
+                                query=query,
+                                key_cache=self.key_cache,
+                                value_cache=self.value_cache,
+                                num_kv_heads=self.num_kv_heads,
+                                num_heads=self.num_heads,
+                                scale_value=self.scale,
+                                block_table=attn_metadata.block_tables,
+                                context_lens=attn_metadata.seq_lens,
+                                out=output)
+                            update_graph_params_workspaces(num_tokens, workspace)
+                    # Handle graph capturing mode
+                    stream = torch_npu.npu.current_stream()
+
+                    event = torch.npu.ExternalEvent()
+                    event.wait(stream)
+                    event.reset(stream)
+                    graph_params.events[num_tokens].append(event)
+                    graph_params.attn_params[num_tokens].append((
+                        weak_ref_tensors(query),
+                        weak_ref_tensors(self.key_cache),
+                        weak_ref_tensors(self.value_cache),
+                        self.num_kv_heads,
+                        self.num_heads,
+                        self.scale,
+                        weak_ref_tensors(attn_metadata.block_tables),
+                        attn_metadata.seq_lens,
+                        weak_ref_tensors(output),
+                    ))
+
+                    torch.npu.graph_task_group_begin(stream)
+
+                    if self.torch_npu_check:
+                        torch_npu._npu_paged_attention(
+                            query=query,
+                            key_cache=self.key_cache,
+                            value_cache=self.value_cache,
+                            num_kv_heads=self.num_kv_heads,
+                            num_heads=self.num_heads,
+                            scale_value=self.scale,
+                            block_table=attn_metadata.block_tables,
+                            context_lens=attn_metadata.seq_lens,
+                            out=output,
+                            workspace=workspace)
+                    else:
+                        torch_npu._npu_paged_attention(
                             query=query,
                             key_cache=self.key_cache,
                             value_cache=self.value_cache,
@@ -413,41 +538,27 @@ def _forward_decode_only(
                             block_table=attn_metadata.block_tables,
                             context_lens=attn_metadata.seq_lens,
                             out=output)
-                        update_graph_params_workspaces(num_tokens, workspace)
-
-                # Handle graph capturing mode
-                stream = torch_npu.npu.current_stream()
-
-                event = torch.npu.ExternalEvent()
-                event.wait(stream)
-                event.reset(stream)
-                graph_params.events[num_tokens].append(event)
-                graph_params.attn_params[num_tokens].append((
-                    weak_ref_tensors(query),
-                    weak_ref_tensors(self.key_cache),
-                    weak_ref_tensors(self.value_cache),
-                    self.num_kv_heads,
-                    self.num_heads,
-                    self.scale,
-                    weak_ref_tensors(attn_metadata.block_tables),
-                    attn_metadata.seq_lens,
-                    weak_ref_tensors(output),
-                ))
-
-                torch.npu.graph_task_group_begin(stream)
-
-                if self.torch_npu_check:
-                    torch_npu._npu_paged_attention(
+            else:
+                if torch.version.cann.startswith("8.3"):
+                    num_block, block_size, _, _ = self.key_cache.shape  # type: ignore
+                    key = self.key_cache.view(
+                        num_block, block_size, -1)
+                    value = self.value_cache.view( 
+                        num_block, block_size, -1)
+                    output, _ = torch_npu.npu_fused_infer_attention_score(
                         query=query,
-                        key_cache=self.key_cache,
-                        value_cache=self.value_cache,
-                        num_kv_heads=self.num_kv_heads,
-                        num_heads=self.num_heads,
-                        scale_value=self.scale,
+                        key=key,
+                        value=value,
                         block_table=attn_metadata.block_tables,
-                        context_lens=attn_metadata.seq_lens,
-                        out=output,
-                        workspace=workspace)
+                        input_layout="TND",
+                        block_size=block_size,
+                        actual_seq_lengths=attn_metadata.query_start_loc_list,
+                        actual_seq_lengths_kv=attn_metadata.seq_lens_list,
+                        num_key_value_heads=self.num_kv_heads,
+                        num_heads=self.num_heads,
+                        scale=self.scale,
+                        sparse_mode=0
+                    )
                 else:
                     torch_npu._npu_paged_attention(
                         query=query,
@@ -459,19 +570,6 @@ def _forward_decode_only(
                         block_table=attn_metadata.block_tables,
                         context_lens=attn_metadata.seq_lens,
                         out=output)
-                handle = torch.npu.graph_task_group_end(stream)
-                graph_params.handles[num_tokens].append(handle)
-            else:
-                torch_npu._npu_paged_attention(
-                    query=query,
-                    key_cache=self.key_cache,
-                    value_cache=self.value_cache,
-                    num_kv_heads=self.num_kv_heads,
-                    num_heads=self.num_heads,
-                    scale_value=self.scale,
-                    block_table=attn_metadata.block_tables,
-                    context_lens=attn_metadata.seq_lens,
-                    out=output)
         return output
 
     def _forward_v1_style(
diff --git a/vllm_ascend/compilation/acl_graph.py b/vllm_ascend/compilation/acl_graph.py
@@ -201,48 +201,87 @@ def update_attn_params(update_stream, forward_context, runtime_shape):
             graph_params.handles[runtime_shape],
             graph_params.events[runtime_shape],
     ):
-        (
-            query,
-            key_cache,
-            value_cache,
-            num_kv_heads,
-            num_heads,
-            scale,
-            block_table,
-            seq_lens,
-            output,
-        ) = param
-        # block_table = forward_context.attn_metadata[key].block_tables
-        seq_lens = forward_context.attn_metadata[key].seq_lens
-        torch_npu_check = version_check()
-
-        with torch.npu.stream(update_stream):
-            torch.npu.graph_task_update_begin(update_stream, handle)
-            if torch_npu_check:
-                torch_npu._npu_paged_attention(
+        if torch.version.cann.startswith("8.3"):
+            (
+                query,
+                key_cache,
+                value,
+                block_tables,
+                block_size,
+                seq_lens,
+                query_start_loc,
+                num_kv_heads,
+                num_heads,
+                scale,
+                attn_output,
+                softmax_lse
+            ) = param
+
+            # block_table = forward_context.attn_metadata[key].block_tables
+            seq_lens = forward_context.attn_metadata[key].seq_lens
+
+            with torch.npu.stream(update_stream):
+                torch.npu.graph_task_update_begin(update_stream, handle)
+                torch_npu.npu_fused_infer_attention_score.out(
                     query=query,
-                    key_cache=key_cache,
-                    value_cache=value_cache,
-                    num_kv_heads=num_kv_heads,
+                    key=key_cache,
+                    value=value,
+                    block_table=block_tables,
+                    input_layout="TND",
+                    block_size=block_size,
+                    actual_seq_lengths=query_start_loc,
+                    actual_seq_lengths_kv=seq_lens,
+                    num_key_value_heads=num_kv_heads,
                     num_heads=num_heads,
-                    scale_value=scale,
-                    block_table=block_table,
-                    context_lens=seq_lens,
-                    out=output,
-                    workspace=graph_params.workspaces.get(runtime_shape))
-            else:
-                torch_npu._npu_paged_attention(query=query,
-                                               key_cache=key_cache,
-                                               value_cache=value_cache,
-                                               num_kv_heads=num_kv_heads,
-                                               num_heads=num_heads,
-                                               scale_value=scale,
-                                               block_table=block_table,
-                                               context_lens=seq_lens,
-                                               out=output)
-            torch.npu.graph_task_update_end(update_stream)
-
-            event.record(update_stream)
+                    scale=scale,
+                    sparse_mode=0,
+                    workspace=graph_params.workspaces.get(runtime_shape),
+                    out=[attn_output, softmax_lse],
+                )
+                torch.npu.graph_task_update_end(update_stream)
+
+                event.record(update_stream)
+        else:
+            (
+                query,
+                key_cache,
+                value_cache,
+                num_kv_heads,
+                num_heads,
+                scale,
+                block_table,
+                seq_lens,
+                output,
+            ) = param
+            # block_table = forward_context.attn_metadata[key].block_tables
+            seq_lens = forward_context.attn_metadata[key].seq_lens
+            torch_npu_check = version_check()
+
+            with torch.npu.stream(update_stream):
+                torch.npu.graph_task_update_begin(update_stream, handle)
+                if torch_npu_check:
+                    torch_npu._npu_paged_attention(
+                        query=query,
+                        key_cache=key_cache,
+                        value_cache=value_cache,
+                        num_kv_heads=num_kv_heads,
+                        num_heads=num_heads,
+                        scale_value=scale,
+                        block_table=block_table,
+                        context_lens=seq_lens,
+                        out=output,
+                        workspace=graph_params.workspaces.get(runtime_shape))
+                else:
+                    torch_npu._npu_paged_attention(query=query,
+                                                key_cache=key_cache,
+                                                value_cache=value_cache,
+                                                num_kv_heads=num_kv_heads,
+                                                num_heads=num_heads,
+                                                scale_value=scale,
+                                                block_table=block_table,
+                                                context_lens=seq_lens,
+                                                out=output)
+                torch.npu.graph_task_update_end(update_stream)
 
 
 def update_mla_attn_params(update_stream, forward_context, runtime_shape):
@@ -317,6 +356,10 @@ def set_graph_params(aclgraph_capture_sizes: set[int]):
          for size in aclgraph_capture_sizes},
     )
 
+def update_graph_params_workspaces(num_tokens: int, workspace: int):
+    global _graph_params
+    if _graph_params is not None:
+        _graph_params.workspaces[num_tokens] = weak_ref_tensors(workspace)
 
 def update_graph_params_workspaces(num_tokens: int, workspace: int):
     global _graph_params
diff --git a/vllm_ascend/platform.py b/vllm_ascend/platform.py