vllm-project · kobe0938 · Aug 27, 2025 · Aug 28, 2025 · Aug 28, 2025 · Aug 28, 2025
diff --git a/.github/values-06-session-routing.yaml b/.github/values-06-session-routing.yaml
@@ -1,70 +1,85 @@
+# Unified configuration for disaggregated prefill setup
 servingEngineSpec:
-  strategy:
-    type: Recreate
-  runtimeClassName: ""
+  enableEngine: true
+  runtimeClassName: "nvidia"
+  containerPort: 8000
   modelSpec:
     # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "llama-prefill"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "0"
         enabled: true
         kvRole: "kv_producer"
+        localCpu: true
+        maxLocalCpuSize: 5
+        maxLocalDiskSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlProxyHost: "vllm-router-service"
+        nixlProxyPort: 7500
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
         enablePD: true
-        cpuOffloadingBufferSize: 0
+        rpcPort: "producer1"
       labels:
-        model: "opt125m-prefill"
+        model: "llama-prefill"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
         {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
+      # hf_token: <hf-token>
     # Decode node configuration
-    - name: "opt125m-decode"
+    - name: "llama-decode"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "1"
         enabled: true
         kvRole: "kv_consumer"  # Set decode node as consumer
+        localCpu: false
+        maxLocalCpuSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "receiver"
         nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlPeerInitPort: 7300
+        nixlPeerAllocPort: 7400
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
+        # nixlBackends: ["UCX"]
         enablePD: true
+        rpcPort: "consumer1"
+        skipLastNTokens: 1
+      # hf_token: <hf-token>
       labels:
-        model: "opt125m-decode"
+        model: "llama-decode"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -75,7 +90,8 @@ servingEngineSpec:
         - SYS_PTRACE
 
 routerSpec:
-  repository: "git-act-router"
+  repository: "xiaokunchen/vllm-router"
+  tag: "09-10-v9"
   imagePullPolicy: "IfNotPresent"
   strategy:
     type: Recreate

diff --git a/.github/values-07-prefix-routing.yaml b/.github/values-07-prefix-routing.yaml
@@ -1,70 +1,85 @@
+# Unified configuration for disaggregated prefill setup
 servingEngineSpec:
-  strategy:
-    type: Recreate
-  runtimeClassName: ""
+  enableEngine: true
+  runtimeClassName: "nvidia"
+  containerPort: 8000
   modelSpec:
     # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "llama-prefill"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "0"
         enabled: true
         kvRole: "kv_producer"
+        localCpu: true
+        maxLocalCpuSize: 5
+        maxLocalDiskSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlProxyHost: "vllm-router-service"
+        nixlProxyPort: 7500
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
         enablePD: true
-        cpuOffloadingBufferSize: 0
+        rpcPort: "producer1"
       labels:
-        model: "opt125m-prefill"
+        model: "llama-prefill"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
         {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
+      # hf_token: <hf-token>
     # Decode node configuration
-    - name: "opt125m-decode"
+    - name: "llama-decode"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "1"
         enabled: true
         kvRole: "kv_consumer"  # Set decode node as consumer
+        localCpu: false
+        maxLocalCpuSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "receiver"
         nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlPeerInitPort: 7300
+        nixlPeerAllocPort: 7400
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
+        # nixlBackends: ["UCX"]
         enablePD: true
+        rpcPort: "consumer1"
+        skipLastNTokens: 1
+      # hf_token: <hf-token>
       labels:
-        model: "opt125m-decode"
+        model: "llama-decode"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -75,7 +90,8 @@ servingEngineSpec:
         - SYS_PTRACE
 
 routerSpec:
-  repository: "git-act-router"
+  repository: "xiaokunchen/vllm-router"
+  tag: "09-10-v9"
   imagePullPolicy: "IfNotPresent"
   strategy:
     type: Recreate

diff --git a/.github/values-08-roundrobin-routing.yaml b/.github/values-08-roundrobin-routing.yaml
@@ -1,70 +1,85 @@
+# Unified configuration for disaggregated prefill setup
 servingEngineSpec:
-  strategy:
-    type: Recreate
-  runtimeClassName: ""
+  enableEngine: true
+  runtimeClassName: "nvidia"
+  containerPort: 8000
   modelSpec:
     # Prefill node configuration
-    - name: "opt125m-prefill"
+    - name: "llama-prefill"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
-        gpuMemoryUtilization: 0.6
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "0"
         enabled: true
         kvRole: "kv_producer"
+        localCpu: true
+        maxLocalCpuSize: 5
+        maxLocalDiskSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "sender"
-        nixlPeerHost: "vllm-opt125m-decode-engine-service"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlProxyHost: "vllm-router-service"
+        nixlProxyPort: 7500
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
         enablePD: true
-        cpuOffloadingBufferSize: 0
+        rpcPort: "producer1"
       labels:
-        model: "opt125m-prefill"
+        model: "llama-prefill"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
         {% if add_generation_prompt and messages[-1]['role'] != 'assistant' %}{{ '<|im_start|>assistant\n' }}{% endif %}
+      # hf_token: <hf-token>
     # Decode node configuration
-    - name: "opt125m-decode"
+    - name: "llama-decode"
       repository: "lmcache/vllm-openai"
-      tag: "2025-05-27-v1"
+      tag: "nightly-2025-09-04"
       modelURL: "facebook/opt-125m"
       replicaCount: 1
       requestCPU: 8
       requestMemory: "30Gi"
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enablePrefixCaching: true
-        maxModelLen: 1024
-        v1: 1
+        enablePrefixCaching: false
+        # maxModelLen: 2048
+        extraArgs:
+          - "--enforce-eager"
+          - "--disable-log-requests"
       lmcacheConfig:
         cudaVisibleDevices: "1"
         enabled: true
         kvRole: "kv_consumer"  # Set decode node as consumer
+        localCpu: false
+        maxLocalCpuSize: 0
         enableNixl: true
+        enableXpyd: true
         nixlRole: "receiver"
         nixlPeerHost: "0.0.0.0"
-        nixlPeerPort: "55555"
-        nixlBufferSize: "1073741824"  # 1GB
+        nixlPeerInitPort: 7300
+        nixlPeerAllocPort: 7400
+        nixlBufferSize: "3774873600"
         nixlBufferDevice: "cuda"
-        nixlEnableGc: true
+        # nixlBackends: ["UCX"]
         enablePD: true
+        rpcPort: "consumer1"
+        skipLastNTokens: 1
+      # hf_token: <hf-token>
       labels:
-        model: "opt125m-decode"
+        model: "llama-decode"
       chatTemplate: "chat.jinja2"
       chatTemplateConfigMap: |-
         {% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}
@@ -75,7 +90,8 @@ servingEngineSpec:
         - SYS_PTRACE
 
 routerSpec:
-  repository: "git-act-router"
+  repository: "xiaokunchen/vllm-router"
+  tag: "09-10-v9"
   imagePullPolicy: "IfNotPresent"
   strategy:
     type: Recreate