Add Load Balancer deployment with two use cases (#191)

liu-shaojun · web-flow · commit 426cf68ab5bb · 2025-12-11T14:06:31.000+08:00
* Create docker-compose.yml

* Create haproxy.cfg

* Update README.md

* add rotation solution

* minor update

* Add docker-compose.env-override.yml to override UR_L0_USE_IMMEDIATE_COMMANDLISTS
diff --git a/vllm/README.md b/vllm/README.md
@@ -23,7 +23,8 @@ llm-scaler-vllm is an extended and optimized version of vLLM, specifically adapt
    2.7 [Finding maximum Context Length](#27-finding-maximum-context-length)   
    2.8 [Multi-Modal Webui](#28-multi-modal-webui)  
    2.9 [Multi-node Distributed Deployment (PP/TP)](#29-multi-node-distributed-deployment-pptp)  
-   2.10 [BPE-Qwen Tokenizer](#210-bpe-qwen-tokenizer)
+   2.10 [BPE-Qwen Tokenizer](#210-bpe-qwen-tokenizer)  
+   2.11 [Load Balancer Solution](#211-load-balancer-solution)
 4. [Supported Models](#3-supported-models)  
 5. [Troubleshooting](#4-troubleshooting)
 6. [Performance tuning](#5-performance-tuning)
@@ -2445,6 +2446,12 @@ To enable data parallelism, add:
 --dp 2
 ```
 
+> **Note**
+> In addition to DP, a **load balancer–based deployment** is also supported as a drop-in alternative.
+> It provides slightly better performance in some scenarios and supports periodic instance rotation for long-running services.
+> See [Section 2.11 Load Balancer](#211-load-balancer-solution) for details.
+
+
 ---
 
 ### 2.7 Finding maximum Context Length
@@ -2743,6 +2750,83 @@ To enable it when launching the API server, add:
 
 ---
 
+### 2.11 Load Balancer Solution
+
+This document describes a **load balancer–based deployment** for vLLM using Docker Compose.
+The load balancer routes traffic to multiple vLLM instances and exposes a single endpoint.
+
+Once started, send requests to:
+
+```
+http://localhost:8000
+```
+
+
+#### Use Case 1: Drop-in Alternative to DP
+
+Use this setup as a **drop-in alternative to DP**.
+
+Compared to DP, the load balancer approach provides **slightly better performance** in our testing and does not require any DP-specific configuration.
+
+Start the Load Balancer
+
+```bash
+cd vllm/docker-compose/load_balancer
+docker compose up -d
+```
+
+You can view logs in real time to monitor service status:
+
+```bash
+docker compose logs -f
+```
+
+After startup, all requests can be sent directly to:
+
+```
+http://localhost:8000
+```
+
+Stop / clean up:
+```
+docker compose down
+```
+
+#### Use Case 2: Periodic vLLM Rotation (Long-Running Service)
+
+Use this when running vLLM for a long time and you want to periodically restart instances (e.g., once per day) to avoid degradation, without service interruption.
+
+Start with Rotation Enabled
+
+```bash
+cd vllm/docker-compose/load_balancer
+chmod +x vllm_bootstrap_and_rotate.sh
+bash vllm_bootstrap_and_rotate.sh
+```
+
+You can view logs in real time to monitor service status:
+
+```bash
+docker compose logs -f
+```
+
+Once started, requests continue to be served at:
+
+```
+http://localhost:8000
+```
+
+To stop the rotation and clean up resources:
+
+```bash
+docker compose down
+crontab -l | grep -v "vllm_bootstrap_and_rotate.sh" | crontab -
+```
+
+> This will stop all containers and remove the cron job that triggers periodic rotation.
+
+---
+
 ## 3. Supported Models
 
 
diff --git a/vllm/docker-compose/load_balancer/docker-compose.env-override.yml b/vllm/docker-compose/load_balancer/docker-compose.env-override.yml
@@ -0,0 +1,8 @@
+services:
+  vllm_1:
+    environment:
+      - UR_L0_USE_IMMEDIATE_COMMANDLISTS=1
+
+  vllm_2:
+    environment:
+      - UR_L0_USE_IMMEDIATE_COMMANDLISTS=1
diff --git a/vllm/docker-compose/load_balancer/docker-compose.yml b/vllm/docker-compose/load_balancer/docker-compose.yml
@@ -0,0 +1,81 @@
+services:
+  vllm_1:
+    image: intel/llm-scaler-vllm
+    container_name: vllm_1
+    privileged: true
+    network_mode: host
+    devices:
+      - "/dev/dri:/dev/dri"
+    shm_size: "32gb"
+    working_dir: /llm
+    entrypoint: >
+      bash -lc "source /opt/intel/oneapi/setvars.sh --force &&
+      python3 -m vllm.entrypoints.openai.api_server
+      --model /llm/models/DeepSeek-R1-Distill-Qwen-7B
+      --served-model-name model
+      --dtype=float16
+      --enforce-eager
+      --port 8008
+      --host 0.0.0.0
+      --disable-log-requests
+      --trust-remote-code
+      --gpu-memory-util=0.9
+      --no-enable-prefix-caching
+      --max-num-batched-tokens=8192
+      --max-model-len=32768
+      --max-num-seqs 256
+      --block-size 64
+      -tp=1"
+    environment:
+      PWD: "/llm"
+      VLLM_WORKER_MULTIPROC_METHOD: "spawn"
+      ZE_AFFINITY_MASK: "2"
+      VLLM_OFFLOAD_WEIGHTS_BEFORE_QUANT: "1"
+      VLLM_ALLOW_LONG_MAX_MODEL_LEN: "1"
+    volumes:
+      - /home/intel/LLM/:/llm/models/
+
+  vllm_2:
+    image: intel/llm-scaler-vllm
+    container_name: vllm_2
+    privileged: true
+    network_mode: host
+    devices:
+      - "/dev/dri:/dev/dri"
+    shm_size: "32gb"
+    working_dir: /llm
+    entrypoint: >
+      bash -lc "source /opt/intel/oneapi/setvars.sh --force &&
+      python3 -m vllm.entrypoints.openai.api_server
+      --model /llm/models/DeepSeek-R1-Distill-Qwen-7B
+      --served-model-name model
+      --dtype=float16
+      --enforce-eager
+      --port 8009
+      --host 0.0.0.0
+      --disable-log-requests
+      --trust-remote-code
+      --gpu-memory-util=0.9
+      --no-enable-prefix-caching
+      --max-num-batched-tokens=8192
+      --max-model-len=32768
+      --max-num-seqs 256
+      --block-size 64
+      -tp=1"
+    environment:
+      PWD: "/llm"
+      VLLM_WORKER_MULTIPROC_METHOD: "spawn"
+      ZE_AFFINITY_MASK: "3"
+      VLLM_OFFLOAD_WEIGHTS_BEFORE_QUANT: "1"
+      VLLM_ALLOW_LONG_MAX_MODEL_LEN: "1"
+    volumes:
+      - /home/intel/LLM/:/llm/models/
+
+  haproxy:
+    image: haproxy:latest
+    container_name: llm_haproxy
+    network_mode: host
+    volumes:
+      - ./haproxy.cfg:/usr/local/etc/haproxy/haproxy.cfg
+    restart: always
+
diff --git a/vllm/docker-compose/load_balancer/haproxy.cfg b/vllm/docker-compose/load_balancer/haproxy.cfg
@@ -0,0 +1,25 @@
+global
+    log stdout format raw local0
+    maxconn 1024
+    stats socket 0.0.0.0:9999 level admin
+
+defaults
+    log global
+    option tcplog              # TCP 日志模式
+    option dontlognull
+    timeout connect 5s
+    timeout client  600s
+    timeout server  600s
+
+frontend llm_front
+    bind *:8000
+    mode tcp                   # 明确 TCP 模式
+    default_backend vllm_backend
+
+backend vllm_backend
+    mode tcp                   # 明确 TCP 模式
+    balance roundrobin
+    default-server inter 2s rise 2 fall 3 slowstart 10s
+    server vllm_1 127.0.0.1:8008 check
+    server vllm_2 127.0.0.1:8009 check
+
diff --git a/vllm/docker-compose/load_balancer/vllm_bootstrap_and_rotate.sh b/vllm/docker-compose/load_balancer/vllm_bootstrap_and_rotate.sh
@@ -0,0 +1,112 @@
+#!/usr/bin/env bash
+set -e
+
+# ==== 配置区域 ====
+COMPOSE_DIR="$(cd "$(dirname "$0")" && pwd)"
+cd "${COMPOSE_DIR}"
+
+HAPROXY_SOCK=127.0.0.1:9999
+LOG_FILE=/tmp/vllm_rotate.log
+CRON_CMD="* 3 * * * ${COMPOSE_DIR}/vllm_bootstrap_and_rotate.sh >> ${LOG_FILE} 2>&1"
+echo "${CRON_CMD}"
+# ==== Step 0: 确保 HAProxy + 至少一个 vLLM 运行 ====
+echo "==> Ensuring HAProxy + at least one vLLM is running..."
+
+docker compose -f docker-compose.yml -f docker-compose.env-override.yml up -d haproxy
+
+# 检查 vLLM 容器是否运行
+VLLM_1_RUNNING=$(docker ps --filter "name=vllm_1" --filter "status=running" | grep -q vllm_1 && echo 1 || echo 0)
+VLLM_2_RUNNING=$(docker ps --filter "name=vllm_2" --filter "status=running" | grep -q vllm_2 && echo 1 || echo 0)
+
+if [[ "$VLLM_1_RUNNING" == "0" && "$VLLM_2_RUNNING" == "0" ]]; then
+  echo "==> No vLLM running, starting vllm_1..."
+  docker compose -f docker-compose.yml -f docker-compose.env-override.yml up -d vllm_1
+
+else
+  echo "==> At least one vLLM already running, skipping initial start"
+fi
+
+
+# ==== Step 0.5: 等待 HAProxy socket 就绪 ====
+echo "==> Waiting for HAProxy socket..."
+for i in {1..20}; do
+  if echo "show info" | socat -t 2 stdio TCP:${HAPROXY_SOCK} >/dev/null 2>&1; then
+    break
+  fi
+  sleep 1
+done
+
+if ! echo "show info" | socat -t 2 stdio TCP:${HAPROXY_SOCK} >/dev/null 2>&1; then
+  echo "[ERROR] HAProxy socket not ready"
+  exit 1
+fi
+
+# ==== Step 1: 判断哪个 vLLM 是旧实例，哪个是新实例 ====
+if docker ps --filter "name=vllm_1" --filter "status=running" | grep -q vllm_1; then
+  OLD=vllm_1
+  NEW=vllm_2
+else
+  OLD=vllm_2
+  NEW=vllm_1
+fi
+
+METRIC_PORT_OLD=$([ "$OLD" == "vllm_1" ] && echo 8008 || echo 8009)
+METRIC_PORT_NEW=$([ "$NEW" == "vllm_1" ] && echo 8008 || echo 8009)
+
+# ==== Step 2: 启动新 vLLM ====
+echo "==> Starting new vLLM: ${NEW}"
+docker compose -f docker-compose.yml -f docker-compose.env-override.yml up -d ${NEW}
+
+# ==== Step 3: 等待新 vLLM 健康 ====
+echo "==> Waiting for ${NEW} to be healthy..."
+until curl -sf http://127.0.0.1:${METRIC_PORT_NEW}/health > /dev/null; do
+  sleep 5
+done
+
+# ==== Step 4: 启用新 backend ====
+echo "==> Enabling ${NEW} in HAProxy..."
+echo "enable server vllm_backend/${NEW}" | socat stdio TCP:${HAPROXY_SOCK}
+sleep 2 
+
+# ==== Step 5: 禁用旧 backend ====
+echo "==> Disabling ${OLD} in HAProxy..."
+echo "disable server vllm_backend/${OLD}" | socat stdio TCP:${HAPROXY_SOCK}
+
+# ==== Step 6: 等待旧 vLLM drain ====
+echo "==> Waiting for old vLLM to drain..."
+while true; do
+  RUNNING=$(curl -s http://127.0.0.1:${METRIC_PORT_OLD}/metrics \
+    | grep '^vllm:num_requests_running' | awk '{print $2}')
+  WAITING=$(curl -s http://127.0.0.1:${METRIC_PORT_OLD}/metrics \
+    | grep '^vllm:num_requests_waiting' | awk '{print $2}')
+
+  if [[ "${RUNNING}" == "0.0" && "${WAITING}" == "0.0" ]]; then
+    break
+  fi
+  sleep 5
+done
+
+# ==== Step 7: 停止旧 vLLM ====
+echo "==> Stopping old vLLM: ${OLD}"
+docker stop ${OLD}
+
+echo "==> Rotation complete ✅"
+
+# 获取当前 crontab
+CURRENT_CRON=$(crontab -l 2>/dev/null || true)
+
+echo "=== 当前 crontab ==="
+echo "$CURRENT_CRON"
+echo "==================="
+
+# 判断是否已经注册
+if ! echo "$CURRENT_CRON" | grep -F -q "${COMPOSE_DIR}/vllm_bootstrap_and_rotate.sh"; then
+    echo "==> Cron not found, registering..."
+    # 保留原有 cron，追加新 cron
+    (echo "$CURRENT_CRON"; echo "$CRON_CMD") | crontab -
+    echo "Cron registered:"
+    crontab -l
+else
+    echo "==> Cron already registered, skipping"
+fi
+