[Frontend] Skip unnecessary detokenization when token_id is requested (vllm-project#24236)

NickLucche · xuebwang-amd · commit d5e8d45d9f0b · 2025-10-24T09:19:15.000Z
Signed-off-by: NickLucche &lt;nlucches@redhat.com&gt;
Signed-off-by: xuebwang-amd &lt;xuebwang@amd.com&gt;
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
@@ -1419,9 +1419,10 @@ def _create_chat_logprobs(
             step_top_logprobs = top_logprobs[i]
             if step_top_logprobs is None or step_top_logprobs.get(
                     token_id) is None:
-                token = tokenizer.decode(token_id)
                 if should_return_as_token_id:
                     token = f"token_id:{token_id}"
+                else:
+                    token = tokenizer.decode(token_id)
 
                 logprobs_content.append(
                     ChatCompletionLogProbsContent(