Prefer FlashAttention MLA as default over FlashMLA (vllm-project#27363)

MatthewBonanni · web-flow · commit 684f2545851e · 2025-11-11T17:13:51.000Z
Signed-off-by: Matthew Bonanni &lt;mbonanni@redhat.com&gt;
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
@@ -55,15 +55,15 @@ def _get_backend_priorities(
             return [
                 AttentionBackendEnum.CUTLASS_MLA,
                 AttentionBackendEnum.FLASHINFER_MLA,
-                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.TRITON_MLA,
                 AttentionBackendEnum.FLASHMLA_SPARSE,
             ]
         else:
             return [
-                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                 AttentionBackendEnum.FLASHINFER_MLA,
                 AttentionBackendEnum.TRITON_MLA,
                 AttentionBackendEnum.FLASHMLA_SPARSE,