vllm-project · wangxiyuan · Dec 12, 2025 · Dec 11, 2025 · Dec 11, 2025 · Dec 11, 2025
diff --git a/vllm_ascend/distributed/mooncake/mooncake_store_connector_v1.py b/vllm_ascend/distributed/mooncake/mooncake_store_connector_v1.py
@@ -45,7 +45,7 @@
             )
 
             assert self.connector_worker is not None
-            if vllm_config.parallel_config.rank == 0:
+            if vllm_config.parallel_config.rank == 0 and self.kv_role == "kv_producer":
-            if vllm_config.parallel_config.rank == 0 and self.kv_role == "kv_producer":
+            if vllm_config.parallel_config.rank == 0 and self.kv_role != "kv_consumer":
-            if vllm_config.parallel_config.rank == 0 and self.kv_role == "kv_producer":
+            if vllm_config.parallel_config.rank == 0 and self.kv_role != "kv_consumer":
                 self.lookup_server = MooncakeLookupServer(
                     self.connector_worker, vllm_config, self.use_layerwise)
 
@@ -160,9 +160,10 @@
 class MooncakeStoreConnectorV1Scheduler:
 
     def __init__(self, vllm_config: "VllmConfig", use_layerwise):
-        self.client = MooncakeLookupClient(vllm_config)
         self.use_layerwise = use_layerwise
         self.kv_role = vllm_config.kv_transfer_config.kv_role
+        self.client = MooncakeLookupClient(
+            vllm_config) if self.kv_role == "kv_producer" else None
         self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
             "consumer_is_to_load", False)
-        self.client = MooncakeLookupClient(
-            vllm_config) if self.kv_role == "kv_producer" else None
-        self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
-            "consumer_is_to_load", False)
+        self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
+            "consumer_is_to_load", False)
+        if self.kv_role != "kv_consumer" or self.consumer_is_to_load:
+            self.client = MooncakeLookupClient(vllm_config)
+        else:
+            self.client = None
-        self.client = MooncakeLookupClient(
-            vllm_config) if self.kv_role == "kv_producer" else None
-        self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
-            "consumer_is_to_load", False)
+        self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
+            "consumer_is_to_load", False)
+        if self.kv_role != "kv_consumer" or self.consumer_is_to_load:
+            self.client = MooncakeLookupClient(vllm_config)
+        else:
+            self.client = None
         self.load_async = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
@@ -207,7 +208,7 @@
        else:
            token_ids = torch.tensor(request.prompt_token_ids)

        num_external_hit_tokens = self.client.lookup(token_ids)

        if num_external_hit_tokens == request.num_tokens:
            num_external_hit_tokens -= 1