xx

wangxiaoxin-sherie · wangxiaoxin-sherie · commit 2839f2a78914 · 2025-10-28T11:00:19.000+08:00
diff --git a/vllm_ascend/attention/attention_splitfusedpa.py b/vllm_ascend/attention/attention_splitfusedpa.py
@@ -147,9 +147,6 @@ class AscendMetadata:
     seq_lens_list: List[int] = None  # type: ignore
     actual_seq_lengths_q: List[int] = None  # type: ignore
 
-    query_start_loc: torch.Tensor = None
-    seq_lens_list: List[int] = None
-
     query_start_loc_list: List[int] = None
     query_lens: torch.Tensor = None
     # Maximum query length in the batch (None for decoding).
@@ -336,7 +333,7 @@ def full_graph_attention(self,
         forward_context: ForwardContext = get_forward_context()
         if forward_context.capturing:
             graph_params = get_graph_params()
-            query_start_loc = attn_metadata.query_start_loc_list
+            query_start_loc = attn_metadata.actual_seq_lengths_q
             seq_lens = attn_metadata.seq_lens_list
             num_tokens = query_start_loc[-1]
             query = query[:num_tokens]