[Test]Add accuracy test for multiple models (vllm-project#3823)

MrZ20 · hwhaokun · commit a69b4ff4adf7 · 2025-11-19T17:02:01.000+08:00
### What this PR does / why we need it? Add accuracy test for multiple models： - Meta_Llama_3.1_8B_Instruct - Qwen2.5-Omni-7B - Qwen3-VL-8B-Instruct - vLLM version: v0.11.0 - vLLM main: vllm-project/vllm@83f478b --------- Signed-off-by: MrZ20 <2609716663@qq.com> Signed-off-by: hwhaokun <haokun0405@163.com>
diff --git a/.github/workflows/accuracy_test.yaml b/.github/workflows/accuracy_test.yaml
@@ -49,8 +49,9 @@ jobs:
             model_name: Qwen3-8B
           - runner: a2-1
             model_name: Qwen2.5-VL-7B-Instruct
-          - runner: a2-1
-            model_name: Qwen2-Audio-7B-Instruct
+          # To do: This model has a bug that needs to be fixed and readded
+          # - runner: a2-1
+          #   model_name: Qwen2-Audio-7B-Instruct
           - runner: a2-2
             model_name: Qwen3-30B-A3B
           - runner: a2-2
@@ -61,6 +62,12 @@ jobs:
             model_name: Qwen3-Next-80B-A3B-Instruct
           - runner: a2-1  
             model_name: Qwen3-8B-W8A8
+          - runner: a2-1
+            model_name: Qwen3-VL-8B-Instruct
+          - runner: a2-1
+            model_name: Qwen2.5-Omni-7B
+          - runner: a2-1
+            model_name: Meta-Llama-3.1-8B-Instruct
       fail-fast: false
     # test will be triggered when tag 'accuracy-test' & 'ready-for-test'
     if:  >-
diff --git a/tests/e2e/models/configs/DeepSeek-V2-Lite.yaml b/tests/e2e/models/configs/DeepSeek-V2-Lite.yaml
@@ -1,5 +1,4 @@
 model_name: "deepseek-ai/DeepSeek-V2-Lite"
-runner: "linux-aarch64-a2-2"
 hardware: "Atlas A2 Series"
 tasks:
 - name: "gsm8k"
diff --git a/tests/e2e/models/configs/Meta-Llama-3.1-8B-Instruct.yaml b/tests/e2e/models/configs/Meta-Llama-3.1-8B-Instruct.yaml
@@ -0,0 +1,11 @@
+model_name: "LLM-Research/Meta-Llama-3.1-8B-Instruct"
+hardware: "Atlas A2 Series"
+tasks:
+- name: "gsm8k"
+  metrics:
+  - name: "exact_match,strict-match"
+    value: 0.82
+  - name: "exact_match,flexible-extract"
+    value: 0.84
+
+num_fewshot: 5
diff --git a/tests/e2e/models/configs/Qwen2.5-Omni-7B.yaml b/tests/e2e/models/configs/Qwen2.5-Omni-7B.yaml
@@ -0,0 +1,10 @@
+model_name: "Qwen/Qwen2.5-Omni-7B"
+hardware: "Atlas A2 Series"
+model: "vllm-vlm"
+tasks:
+- name: "mmmu_val"
+  metrics:
+  - name: "acc,none"
+    value: 0.52
+max_model_len: 8192
+gpu_memory_utilization: 0.7
diff --git a/tests/e2e/models/configs/Qwen2.5-VL-7B-Instruct.yaml b/tests/e2e/models/configs/Qwen2.5-VL-7B-Instruct.yaml
@@ -1,10 +1,9 @@
 model_name: "Qwen/Qwen2.5-VL-7B-Instruct"
-runner: "linux-aarch64-a2-1"
 hardware: "Atlas A2 Series"
 model: "vllm-vlm"
 tasks:
 - name: "mmmu_val"
   metrics:
   - name: "acc,none"
     value: 0.51
-max_model_len: 8192
+max_model_len: 8192
diff --git a/tests/e2e/models/configs/Qwen3-30B-A3B.yaml b/tests/e2e/models/configs/Qwen3-30B-A3B.yaml
@@ -1,5 +1,4 @@
 model_name: "Qwen/Qwen3-30B-A3B"
-runner: "linux-aarch64-a2-2"
 hardware: "Atlas A2 Series"
 tasks:
 - name: "gsm8k"
@@ -17,4 +16,4 @@ gpu_memory_utilization: 0.6
 enable_expert_parallel: True
 tensor_parallel_size: 2
 apply_chat_template: False
-fewshot_as_multiturn: False
+fewshot_as_multiturn: False
diff --git a/tests/e2e/models/configs/Qwen3-8B-Base.yaml b/tests/e2e/models/configs/Qwen3-8B-Base.yaml
@@ -1,5 +1,4 @@
 model_name: "Qwen/Qwen3-8B-Base"
-runner: "linux-aarch64-a2-1"
 hardware: "Atlas A2 Series"
 tasks:
 - name: "gsm8k"
diff --git a/tests/e2e/models/configs/Qwen3-VL-8B-Instruct.yaml b/tests/e2e/models/configs/Qwen3-VL-8B-Instruct.yaml
@@ -0,0 +1,11 @@
+model_name: "Qwen/Qwen3-VL-8B-Instruct"
+hardware: "Atlas A2 Series"
+model: "vllm-vlm"
+tasks:
+- name: "mmmu_val"
+  metrics:
+  - name: "acc,none"
+    value: 0.55
+max_model_len: 8192
+batch_size: 32
+gpu_memory_utilization: 0.7
diff --git a/tests/e2e/models/configs/accuracy.txt b/tests/e2e/models/configs/accuracy.txt
@@ -6,3 +6,6 @@ Qwen2-7B.yaml
 Qwen2-VL-7B-Instruct.yaml
 Qwen2-Audio-7B-Instruct.yaml
 Qwen3-VL-30B-A3B-Instruct.yaml
+Qwen3-VL-8B-Instruct.yaml
+Qwen2.5-Omni-7B.yaml
+Meta-Llama-3.1-8B-Instruct.yaml

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`model_name: "deepseek-ai/DeepSeek-V2-Lite"`
`2`		`-runner: "linux-aarch64-a2-2"`
`3`	`2`	`hardware: "Atlas A2 Series"`
`4`	`3`	`tasks:`
`5`	`4`	`- name: "gsm8k"`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`model_name: "Qwen/Qwen3-8B-Base"`
`2`		`-runner: "linux-aarch64-a2-1"`
`3`	`2`	`hardware: "Atlas A2 Series"`
`4`	`3`	`tasks:`
`5`	`4`	`- name: "gsm8k"`