[Feat] Add worker interface "reload_weights"

ivyilike · ivyilike · commit 0a43813b72dc · 2025-11-26T15:44:13.000+08:00
Signed-off-by: ivyilike &lt;pww123@cmbchina.com&gt;
diff --git a/vllm_ascend/worker/worker_v1.py b/vllm_ascend/worker/worker_v1.py
@@ -470,14 +470,4 @@ def take_draft_token_ids(self) -> Optional[DraftTokenIds]:
         return self.model_runner.take_draft_token_ids()
 
     def reload_weights(self) -> None:
-        if self.vllm_config.model_config.enable_sleep_mode:
-            allocator = CaMemAllocator.get_instance()
-            assert allocator.get_current_usage() == 0, (
-                "Sleep mode can only be "
-                "used for one instance per process.")
-            context = allocator.use_memory_pool(tag="weights")
-        else:
-            from contextlib import nullcontext
-            context = nullcontext()  # type: ignore
-        with context:
-            self.model_runner.reload_weights()
+        self.model_runner.reload_weights()