[Fusion] normalize fusion naming and enable e2e test

wxsIcey · wxsIcey · commit 5bdef8e17022 · 2025-12-09T02:08:31.000Z
Signed-off-by: wxsIcey &lt;1790571317@qq.com&gt;
diff --git a/.github/workflows/_e2e_test.yaml b/.github/workflows/_e2e_test.yaml
@@ -104,6 +104,7 @@ jobs:
           pytest -sv tests/e2e/singlecard/test_vlm.py
           pytest -sv tests/e2e/singlecard/multi-modal/test_internvl.py
           pytest -sv tests/e2e/singlecard/test_xlite.py
+          pytest -sv tests/e2e/singlecard/test_norm_quant_fusion.py
 
           # ------------------------------------ v1 spec decode test ------------------------------------ #
           pytest -sv tests/e2e/singlecard/spec_decode_v1/test_v1_mtp_correctness.py
diff --git a/tests/e2e/singlecard/test_norm_quant_fusion.py b/tests/e2e/singlecard/test_norm_quant_fusion.py
@@ -28,7 +28,7 @@
 from vllm.config import ModelConfig, VllmConfig, get_current_vllm_config
 
 from vllm_ascend.compilation.compiler_interface import compile_fx
-from vllm_ascend.compilation.passes.quant_fusion_pass import \
+from vllm_ascend.compilation.passes.norm_quant_fusion_pass import \
     AddRMSNormQuantFusionPass
 
 
diff --git a/tests/ut/test_ascend_config.py b/tests/ut/test_ascend_config.py
@@ -57,7 +57,7 @@ def test_init_ascend_config_without_additional_config(self):
         self.assertFalse(torchair_graph_config.enable_kv_nz)
 
         ascend_compilation_config = ascend_config.ascend_compilation_config
-        self.assertTrue(ascend_compilation_config.enable_quantization_fusion)
+        self.assertTrue(ascend_compilation_config.fuse_norm_quant)
 
     @_clean_up_ascend_config
     def test_init_ascend_config_with_additional_config(self):
@@ -74,7 +74,7 @@ def test_init_ascend_config_with_additional_config(self):
                 "enable_kv_nz": True
             },
             "ascend_compilation_config": {
-                "enable_quantization_fusion": False,
+                "fuse_norm_quant": False,
             },
             "multistream_overlap_shared_expert": True,
             "expert_map_path": "test_expert_map_path",
@@ -94,7 +94,7 @@ def test_init_ascend_config_with_additional_config(self):
         self.assertTrue(torchair_graph_config.enable_frozen_parameter)
         self.assertTrue(torchair_graph_config.enable_kv_nz)
         ascend_compilation_config = ascend_config.ascend_compilation_config
-        self.assertFalse(ascend_compilation_config.enable_quantization_fusion)
+        self.assertFalse(ascend_compilation_config.fuse_norm_quant)
 
     @_clean_up_ascend_config
     def test_init_ascend_config_with_refresh(self):
diff --git a/vllm_ascend/ascend_config.py b/vllm_ascend/ascend_config.py
@@ -199,19 +199,18 @@ class AscendCompilationConfig:
     deployed on Ascend platforms.
     """
 
-    def __init__(self, enable_quantization_fusion: bool = True, **kwargs):
+    def __init__(self, fuse_norm_quant: bool = True, **kwargs):
         """
         Initialize the configuration.
         
         Args:
-            enable_quantization_fusion (bool): Whether to enable quantization fusion optimization.
-                When set to True, the system will optimize quantization-related operations,
-                reducing the number of quantization/dequantization nodes.
+            fuse_norm_quant (bool): Whether to enable norm and quant fusion optimization.
+                When set to True, the system will optimize norm and quant operations.
                 Default: True
                 
             **kwargs: Additional optional parameters for forward compatibility and configuration extension.
         """
-        self.enable_quantization_fusion = enable_quantization_fusion
+        self.fuse_norm_quant = fuse_norm_quant
         # Add more compilation related configs here as needed
 
 
@@ -406,9 +405,9 @@ def check_ascend_config(vllm_config, enforce_eager):
                     "it has been disabled automatically.")
         # aclgraph case
         else:
-            if ascend_config.ascend_compilation_config.enable_quantization_fusion:
+            if ascend_config.ascend_compilation_config.fuse_norm_quant:
                 logger.info(
-                    "Quantization fusion enabled! op fusion on quantization are expected. "
+                    "Norm and Quant fusion enabled! op fusion on norm and quant are expected. "
                 )
 
             if vllm_config.model_config:
diff --git a/vllm_ascend/compilation/graph_fusion_pass_manager.py b/vllm_ascend/compilation/graph_fusion_pass_manager.py
@@ -46,8 +46,8 @@ def configure(self, config: VllmConfig):
         # By default, we enable the graph fusion and quantization fusion pass.
         self.ascend_compilation_config: dict = config.additional_config.get(
             "ascend_compilation_config", {})
-        if self.ascend_compilation_config.get("enable_quantization_fusion",
-                                              True):
-            from .passes.quant_fusion_pass import AddRMSNormQuantFusionPass
+        if self.ascend_compilation_config.get("fuse_norm_quant", True):
+            from .passes.norm_quant_fusion_pass import \
+                AddRMSNormQuantFusionPass
             self.passes.append(AddRMSNormQuantFusionPass(config))
         # Add more passes here as needed
diff --git a/vllm_ascend/compilation/passes/norm_quant_fusion_pass.py b/vllm_ascend/compilation/passes/norm_quant_fusion_pass.py
diff --git a/vllm_ascend/platform.py b/vllm_ascend/platform.py
@@ -91,8 +91,7 @@ def get_compile_backend(self) -> str:
         Get the custom compile backend. Previously, we used EagerAdaptor by default. 
         To use graph fusion operations, we defined our own backend compiler.
         """
-        from vllm_ascend.compilation.compiler_interface import AscendCompiler
-        return AscendCompiler.__module__ + "." + AscendCompiler.__name__
+        return "vllm_ascend.compilation.compiler_interface.AscendCompiler"
 
     @classmethod
     def pre_register_and_update(cls,
@@ -248,8 +247,8 @@ def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
         if compilation_config.cudagraph_mode == CUDAGraphMode.FULL_AND_PIECEWISE:
             compilation_config.cudagraph_mode = CUDAGraphMode.PIECEWISE
 
-        from vllm_ascend.compilation.compiler_interface import AscendCompiler
-        compilation_config.oot_compiler = AscendCompiler.__module__ + "." + AscendCompiler.__name__
+        # get custom compile backend for graph fusion
+        compilation_config.oot_compiler = cls.get_compile_backend()
 
         if compilation_config.cudagraph_mode == CUDAGraphMode.NONE:
             compilation_config.mode = CompilationMode.NONE