Merge branch 'main' into qknorm_rope_fusion

wxsIcey · web-flow · commit bb324de1cf20 · 2025-12-15T10:05:29.000+08:00
diff --git a/docs/source/tutorials/Qwen3_embedding.md b/docs/source/tutorials/Qwen3_embedding.md
@@ -40,7 +40,7 @@ export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
 ### Online Inference
 
 ```bash
-vllm serve Qwen/Qwen3-Embedding-8B --task embed
+vllm serve Qwen/Qwen3-Embedding-8B --runner pooling
 ```
 
 Once your server is started, you can query the model with input prompts.
@@ -81,7 +81,7 @@ if __name__=="__main__":
     input_texts = queries + documents
 
     model = LLM(model="Qwen/Qwen3-Embedding-8B",
-                task="embed",
+                runner="pooling",
                 distributed_executor_backend="mp")
 
     outputs = model.embed(input_texts)
diff --git a/examples/offline_embed.py b/examples/offline_embed.py
@@ -44,7 +44,7 @@ def main():
     ]
     input_texts = queries + documents
 
-    model = LLM(model="Qwen/Qwen3-Embedding-0.6B", task="embed")
+    model = LLM(model="Qwen/Qwen3-Embedding-0.6B", runner="pooling")
 
     outputs = model.embed(input_texts)
     embeddings = torch.tensor([o.outputs.embedding for o in outputs])

Original file line number	Diff line number	Diff line change
`@@ -44,7 +44,7 @@ def main():`
`44`	`44`	`]`
`45`	`45`	`input_texts = queries + documents`
`46`	`46`
`47`		`- model = LLM(model="Qwen/Qwen3-Embedding-0.6B", task="embed")`
	`47`	`+ model = LLM(model="Qwen/Qwen3-Embedding-0.6B", runner="pooling")`
`48`	`48`
`49`	`49`	`outputs = model.embed(input_texts)`
`50`	`50`	`embeddings = torch.tensor([o.outputs.embedding for o in outputs])`