vllm-project · MengqingCao · Dec 2, 2025 · Dec 2, 2025 · Dec 2, 2025 · MengqingCao
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -19,6 +19,7 @@
 
 import copy
 import gc
+import inspect
 import itertools
 import math
 import re
@@ -1394,11 +1395,19 @@ def _prepare_inputs(
             # embeddings), we always use embeddings (rather than token ids)
             # as input to the multimodal model, even when the input is text.
             input_ids = self.input_ids[:total_num_scheduled_tokens]
-            inputs_embeds = self.model.get_input_embeddings(
-                input_ids,
-                multimodal_embeddings=mm_embeds,
-                is_multimodal=is_mm_embed,
-            )
+            has_is_multimodal = 'is_multimodal' in inspect.signature(self.model.get_input_embeddings).parameters
+            if has_is_multimodal:
+                inputs_embeds = self.model.get_input_embeddings(
+                    input_ids,
+                    multimodal_embeddings=mm_embeds,
+                    is_multimodal=is_mm_embed,
+                )
+            else:
+                if mm_embeds:
+                    inputs_embeds = self.model.get_input_embeddings(
+                        input_ids, mm_embeds)
+                else:
+                    inputs_embeds = self.model.get_input_embeddings(input_ids)
-            has_is_multimodal = 'is_multimodal' in inspect.signature(self.model.get_input_embeddings).parameters
-            if has_is_multimodal:
-                inputs_embeds = self.model.get_input_embeddings(
-                    input_ids,
-                    multimodal_embeddings=mm_embeds,
-                    is_multimodal=is_mm_embed,
-                )
-            else:
-                if mm_embeds:
-                    inputs_embeds = self.model.get_input_embeddings(
-                        input_ids, mm_embeds)
-                else:
-                    inputs_embeds = self.model.get_input_embeddings(input_ids)
+            if not hasattr(self, "_has_is_multimodal_in_get_input_embeddings"):
+                self._has_is_multimodal_in_get_input_embeddings = (
+                    'is_multimodal' in inspect.signature(
+                        self.model.get_input_embeddings).parameters)
+
+            if self._has_is_multimodal_in_get_input_embeddings:
+                inputs_embeds = self.model.get_input_embeddings(
+                    input_ids,
+                    multimodal_embeddings=mm_embeds,
+                    is_multimodal=is_mm_embed,
+                )
+            else:
+                if mm_embeds:
+                    inputs_embeds = self.model.get_input_embeddings(
+                        input_ids, mm_embeds)
+                else:
+                    inputs_embeds = self.model.get_input_embeddings(input_ids)
-            has_is_multimodal = 'is_multimodal' in inspect.signature(self.model.get_input_embeddings).parameters
-            if has_is_multimodal:
-                inputs_embeds = self.model.get_input_embeddings(
-                    input_ids,
-                    multimodal_embeddings=mm_embeds,
-                    is_multimodal=is_mm_embed,
-                )
-            else:
-                if mm_embeds:
-                    inputs_embeds = self.model.get_input_embeddings(
-                        input_ids, mm_embeds)
-                else:
-                    inputs_embeds = self.model.get_input_embeddings(input_ids)
+            if not hasattr(self, "_has_is_multimodal_in_get_input_embeddings"):
+                self._has_is_multimodal_in_get_input_embeddings = (
+                    'is_multimodal' in inspect.signature(
+                        self.model.get_input_embeddings).parameters)
+
+            if self._has_is_multimodal_in_get_input_embeddings:
+                inputs_embeds = self.model.get_input_embeddings(
+                    input_ids,
+                    multimodal_embeddings=mm_embeds,
+                    is_multimodal=is_mm_embed,
+                )
+            else:
+                if mm_embeds:
+                    inputs_embeds = self.model.get_input_embeddings(
+                        input_ids, mm_embeds)
+                else:
+                    inputs_embeds = self.model.get_input_embeddings(input_ids)
             # TODO(woosuk): Avoid the copy. Optimize.
             self.inputs_embeds[:total_num_scheduled_tokens].copy_(
                 inputs_embeds)