fix attention for glm (#106)

yao-fengchen · web-flow · commit 5e1797e4c2f1 · 2024-11-15T14:41:44.000+08:00
diff --git a/dlinfer/vendor/ascend/torch_npu_ops.py b/dlinfer/vendor/ascend/torch_npu_ops.py
@@ -176,6 +176,7 @@ def paged_decode_attention(
 
     bs, _, dim = query.shape
     query = query.contiguous()
+    attn_output = attn_output.contiguous()
     query = query.view(bs, 1, num_q_heads * dim)
     scale_value = 1.0 / math.sqrt(dim)