[CI]Update accuracy report test (#1288)

### What this PR does / why we need it? Update accuracy report test 1. Add Record commit hashes and GitHub links for both vllm and vllm-ascend in accuracy reports 2. Add accuracy result verification checks to ensure output correctness 3. Creat PR via forked repository workflow ### Does this PR introduce _any_ user-facing change? No ### How was this patch tested? dense-accuracy-test: https://github.com/vllm-project/vllm-ascend/actions/runs/15745619485 create pr via forked repository workflow: https://github.com/zhangxinyuehfad/vllm-ascend/actions/runs/15747013719/job/44385134080 accuracy report pr: https://github.com/vllm-project/vllm-ascend/pull/1292 Currently, the accuracy report used is old and needs to be merged into pr, retest, update new report, then close #1292 . Signed-off-by: hfadzxy <starmoon_zhang@163.com>
2025-06-25 14:10:34 +08:00
parent 15df8be937
commit 0060886a37
3 changed files with 204 additions and 235 deletions
--- a/.github/workflows/accuracy_report.yaml
+++ b/.github/workflows/accuracy_report.yaml
@@ -1,202 +0,0 @@
 #
 # Copyright (c) 2025 Huawei Technologies Co., Ltd. All Rights Reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
 # You may obtain a copy of the License at
 #
 #     http://www.apache.org/licenses/LICENSE-2.0
 #
 # Unless required by applicable law or agreed to in writing, software
 # distributed under the License is distributed on an "AS IS" BASIS,
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # This file is a part of the vllm-ascend project.
 #
 name: Accuracy Report
 on:
  workflow_dispatch:
    inputs:
      vllm-ascend-branch:
        description: 'vllm-ascend branch:'
        required: true
        type: choice
        options:
          - main
          - v0.7.3-dev
      models:  
        description: 'models:'
        required: true
        type: choice
        options:
          - all
          - Qwen/Qwen2.5-7B-Instruct
          - Qwen/Qwen2.5-VL-7B-Instruct
          - Qwen/Qwen3-8B-Base
        default: 'all'
 jobs:
  download_reports:
    runs-on: ubuntu-latest
    strategy:
      matrix:
        model: ${{ fromJSON(
          (github.event.inputs.models == 'all' &&
            '["Qwen/Qwen2.5-7B-Instruct","Qwen/Qwen2.5-VL-7B-Instruct","Qwen/Qwen3-8B-Base"]') ||
          (github.event.inputs.models == 'Qwen/Qwen2.5-7B-Instruct' &&
            '["Qwen/Qwen2.5-7B-Instruct"]') ||
          (github.event.inputs.models == 'Qwen/Qwen2.5-VL-7B-Instruct' &&
            '["Qwen/Qwen2.5-VL-7B-Instruct"]') ||
          (github.event.inputs.models == 'Qwen/Qwen3-8B-Base' &&
            '["Qwen/Qwen3-8B-Base"]')
         ) }}
        version: [0, 1]
        exclude:
          - model: 'Qwen/Qwen2.5-VL-7B-Instruct'
            version: 1
      fail-fast: false     
    name: Download ${{ matrix.model }} V${{ matrix.version }}
    steps:
      - name: Checkout repository
        uses: actions/checkout@v4
        with:
          ref: ${{ github.event.inputs.vllm-ascend-branch }}
      - name: Get base model name
        id: get_basename
        run: |
          model_base_name=$(basename "${{ matrix.model }}")
          echo "model_base_name=$model_base_name" >> $GITHUB_OUTPUT
        shell: bash
      - name: Query artifact run id
        id: get_run_id
        run: |
          ARTIFACT_PATTERN="${{ github.event.inputs.vllm-ascend-branch }}-${{ steps.get_basename.outputs.model_base_name }}-V${{ matrix.version }}-report"
          echo "Querying artifacts with pattern: $ARTIFACT_PATTERN"
          ARTIFACT_JSON=$(gh api --paginate /repos/${{ github.repository }}/actions/artifacts || echo "{}")
          RUN_ID=$(echo "$ARTIFACT_JSON" | \
            jq -s -r --arg pattern "$ARTIFACT_PATTERN" \
            '[.[].artifacts[]] | map(select(.name | test($pattern))) | sort_by(.created_at) | last | .workflow_run.id // empty')
          if [ -z "$RUN_ID" ]; then
            echo "::warning::No artifact found matching pattern $ARTIFACT_PATTERN. Skipping download."
            echo "runid=" >> $GITHUB_OUTPUT
          else
            echo "Found matching artifact with run ID: $RUN_ID"
            echo "runid=$RUN_ID" >> $GITHUB_OUTPUT
          fi
        env:
          GH_TOKEN: ${{ secrets.GITHUB_TOKEN  }}
      - name: Download Artifact
        if: ${{ steps.get_run_id.outputs.runid != '' }}
        uses: actions/download-artifact@v4
        with:
          name: ${{ github.event.inputs.vllm-ascend-branch }}-${{ steps.get_basename.outputs.model_base_name }}-V${{ matrix.version }}-report
          path: ./docs/source/developer_guide/evaluation/accuracy_report_bak
          github-token: ${{ secrets.GITHUB_TOKEN  }}
          repository: ${{ github.repository }}
          run-id: ${{ steps.get_run_id.outputs.runid }}
      - name: Upload reports artifact
        if: ${{ steps.get_run_id.outputs.runid != '' }}
        uses: actions/upload-artifact@v4
        with:
          name: report-${{ steps.get_basename.outputs.model_base_name }}-v${{ matrix.version }}
          path: ./docs/source/developer_guide/evaluation/accuracy_report_bak/*.md
          retention-days: 90
  create_pr:
    runs-on: ubuntu-latest
    needs: download_reports
    steps:
      - name: Checkout repository
        uses: actions/checkout@v4
        with:
          ref: ${{ github.event.inputs.vllm-ascend-branch }}
      - name: Setup workspace
        run: mkdir -p ./accuracy/accuracy_report
      - name: Download only current run reports
        uses: actions/download-artifact@v4
        with:
          path: ./docs/source/developer_guide/evaluation/accuracy_report
          pattern: report-*
          github-token: ${{ secrets.GITHUB_TOKEN }}
          run-id: ${{ github.run_id }}
      - name: Delete old report
        run: |
          find ./docs/source/developer_guide/evaluation/accuracy_report -maxdepth 1 -type f -name '*.md' ! -name 'index.md' -delete
          find ./docs/source/developer_guide/evaluation/accuracy_report -mindepth 2 -type f -name '*.md' -exec mv -f {} ./docs/source/developer_guide/evaluation/accuracy_report \;
          find ./docs/source/developer_guide/evaluation/accuracy_report -mindepth 1 -type d -empty -delete
      - name: Generate step summary
        if: ${{ always() }}
        run: |
          for report in ./docs/source/developer_guide/evaluation/accuracy_report/*.md; do
            filename=$(basename "$report")
            # skip index.md
            if [ "$filename" = "index.md" ]; then
              continue
            fi
            if [ -f "$report" ]; then
              {
                echo -e "\n\n---\n"
                echo "## 📄 Report File: $(basename $report)"
                cat "$report"
              } >> "$GITHUB_STEP_SUMMARY"
            fi
          done
      - name: Update accuracy_report/index.md
        run: |
          REPORT_DIR="./docs/source/developer_guide/evaluation/accuracy_report"
          INDEX_MD="$REPORT_DIR/index.md"
          {
            echo "# Accuracy Report"
            echo ""
            echo "::: {toctree}"
            echo ":caption: Accuracy Report"
            echo ":maxdepth: 1"
            for report in "$REPORT_DIR"/*.md; do
              filename="$(basename "$report" .md)"
              if [ "$filename" != "index" ]; then
                echo "$filename"
              fi
            done
            echo ":::"
          } > "$INDEX_MD"
      - name: Create Pull Request
        uses: peter-evans/create-pull-request@v7
        with:
          token: ${{ secrets.PR_TOKEN }}
          base: ${{ github.event.inputs.vllm-ascend-branch }}
          branch: auto-pr/accuracy-report
          commit-message: "Update accuracy reports for ${{ github.event.inputs.vllm-ascend-branch }}"
          add-paths: ./docs/source/developer_guide/evaluation/accuracy_report/*.md
          title: "[Doc] Update accuracy reports for ${{ github.event.inputs.vllm-ascend-branch }}"
          body: |
            The accuracy results running on NPU Altlas A2 have changed, updating reports for:
            ${{ 
              github.event.inputs.models == 'all' 
                && 'All models (Qwen2.5-7B-Instruct, Qwen2.5-VL-7B-Instruct, Qwen3-8B-Base)' 
                || github.event.inputs.models 
            }}
            - [Workflow run][1]
            [1]: ${{ github.server_url }}/${{ github.repository }}/actions/runs/${{ github.run_id }}
--- a/.github/workflows/accuracy_test.yaml
+++ b/.github/workflows/accuracy_test.yaml
@@ -45,8 +45,8 @@ on:
        type: choice
        options:
          - main
          - v0.7.3-dev
          - v0.9.1-dev
          - v0.7.3-dev
      models:
        description: 'model:'
        required: true
@@ -183,7 +183,28 @@ jobs:
          PIP_EXTRA_INDEX_URL: https://mirrors.huaweicloud.com/ascend/repos/pypi
        run: |
          pip install -r requirements-dev.txt
-          pip install -e .
+          pip install -v -e . 
      - name: Get vLLM commit hash and URL
        working-directory: ./vllm-empty
        run: |
          VLLM_COMMIT=$(git rev-parse HEAD)
          echo "VLLM_COMMIT=$VLLM_COMMIT" >> $GITHUB_ENV
          echo "VLLM_COMMIT_URL=https://github.com/vllm-project/vllm/commit/$VLLM_COMMIT" >> $GITHUB_ENV
      - name: Get vLLM-Ascend commit hash and URL
        working-directory: ./vllm-ascend
        run: |
          VLLM_ASCEND_COMMIT=$(git rev-parse HEAD)
          echo "VLLM_ASCEND_COMMIT=$VLLM_ASCEND_COMMIT" >> $GITHUB_ENV
          echo "VLLM_ASCEND_COMMIT_URL=https://github.com/vllm-project/vllm-ascend/commit/$VLLM_ASCEND_COMMIT" >> $GITHUB_ENV
      - name: Print resolved hashes and URLs
        run: |
          echo "vLLM       : ${{ env.VLLM_COMMIT }}"
          echo "vLLM link  : ${{ env.VLLM_COMMIT_URL }}"
          echo "vLLM-Ascend: ${{ env.VLLM_ASCEND_COMMIT }}"
          echo "Ascend link: ${{ env.VLLM_ASCEND_COMMIT_URL }}" 
      - name: Install lm-eval, ray, and datasets
        run: |
@@ -239,7 +260,12 @@ jobs:
            --cann_version "${{ env.GHA_CANN_VERSION }}" \
            --torch_npu_version "${{ env.GHA_TORCH_NPU_VERSION }}" \
            --torch_version "${{ env.GHA_TORCH_VERSION }}" \
-            --vllm_version "${{ env.GHA_VLLM_VERSION }}"
+            --vllm_version "${{ env.GHA_VLLM_VERSION }}" \
            --vllm_commit "${{ env.VLLM_COMMIT }}" \
            --vllm_ascend_commit "${{ env.VLLM_ASCEND_COMMIT }}" \
            --vllm_commit_url "${{ env.VLLM_COMMIT_URL }}" \
            --vllm_ascend_commit_url "${{ env.VLLM_ASCEND_COMMIT_URL }}" \
            --vllm_use_v1 "$VLLM_USE_V1"
      - name: Generate step summary
        if: ${{ always() }}
@@ -251,12 +277,122 @@ jobs:
          SAFE_VLLM_ASCEND_VERSION="${GHA_VLLM_ASCEND_VERSION//\//-}"
          echo "SAFE_VLLM_ASCEND_VERSION=$SAFE_VLLM_ASCEND_VERSION" >> "$GITHUB_ENV"
      - name: Check report first line for failure
        id: check_report
        run: |
          REPORT_PATH="./benchmarks/accuracy/${{ steps.report.outputs.markdown_name }}.md"
          echo "Scanning $REPORT_PATH for ❌ …"
          if grep -q '❌' "$REPORT_PATH"; then
            echo "contains_fail=true" >> $GITHUB_OUTPUT
          else
            echo "contains_fail=false" >> $GITHUB_OUTPUT
          fi
      - name: Upload Report for V${{ matrix.vllm_use_version }}
-        if: ${{ github.event_name == 'workflow_dispatch' }}
+        if: ${{ github.event_name == 'workflow_dispatch' && steps.check_report.outputs.contains_fail == 'false' }}
        uses: actions/upload-artifact@v4
        with:
-          name: "${{ env.SAFE_VLLM_ASCEND_VERSION }}-${{ steps.report.outputs.markdown_name }}-report"
+          name: "report-${{ env.SAFE_VLLM_ASCEND_VERSION }}-${{ steps.report.outputs.markdown_name }}"
          path: ./benchmarks/accuracy/${{ steps.report.outputs.markdown_name }}.md
          if-no-files-found: warn
          retention-days: 90
          overwrite: true
  create_pr:
    runs-on: ubuntu-latest
    needs: accuracy_tests
    if: ${{ github.event_name == 'workflow_dispatch' }}
    env:
      UPSTREAM_REPO: vllm-project/vllm-ascend
    steps:
      - name: Checkout repository
        uses: actions/checkout@v4
        with:
          repository: vllm-ascend-ci/vllm-ascend
          token: ${{ secrets.PAT_TOKEN }}
          ref: main
      - name: Add upstream remote
        run: |
          git remote add upstream https://github.com/${{ env.UPSTREAM_REPO }}.git
          git fetch upstream
          git remote -v
      - name: Set Git user info dynamically
        run: |
          git config user.name "${{ github.actor }}"
          git config user.email "${{ github.actor }}@users.noreply.github.com"
      - name: Create or switch to branch
        run: |
          TIMESTAMP=$(date +%Y%m%d%H%M%S)
          BRANCH_NAME="auto-pr/accuracy-report-${TIMESTAMP}"
          echo "BRANCH_NAME=${BRANCH_NAME}" >> $GITHUB_ENV
          git checkout -B "${BRANCH_NAME}" upstream/${{ github.event.inputs.vllm-ascend-version }}
      - name: Download only current run reports
        uses: actions/download-artifact@v4
        with:
          path: ./docs/source/developer_guide/evaluation/accuracy_report
          pattern: report-*
          github-token: ${{ secrets.GITHUB_TOKEN }}
          run-id: ${{ github.run_id }}
      - name: Delete old report
        run: |
          find ./docs/source/developer_guide/evaluation/accuracy_report -maxdepth 1 -type f -name '*.md' ! -name 'index.md' -delete
          find ./docs/source/developer_guide/evaluation/accuracy_report -mindepth 2 -type f -name '*.md' -exec mv -f {} ./docs/source/developer_guide/evaluation/accuracy_report \;
          find ./docs/source/developer_guide/evaluation/accuracy_report -mindepth 1 -type d -empty -delete
      - name: Update accuracy_report/index.md
        run: |
          REPORT_DIR="./docs/source/developer_guide/evaluation/accuracy_report"
          INDEX_MD="$REPORT_DIR/index.md"
          {
            echo "# Accuracy Report"
            echo ""
            echo ":::{toctree}"
            echo ":caption: Accuracy Report"
            echo ":maxdepth: 1"
            for report in "$REPORT_DIR"/*.md; do
              filename="$(basename "$report" .md)"
              if [ "$filename" != "index" ]; then
                echo "$filename"
              fi
            done
            echo ":::"
          } > "$INDEX_MD"
      - name: push accuracy report
        env:
          GITHUB_TOKEN: ${{ secrets.PAT_TOKEN }}
        run: |
          git add ./docs/source/developer_guide/evaluation/accuracy_report/*.md
          git commit -s -m "[Doc] Update accuracy reports for ${{ github.event.inputs.vllm-ascend-version }}"
          git push -f origin "${{ env.BRANCH_NAME }}"
      - name: Create PR in upstream via API
        uses: actions/github-script@v6
        with:
          github-token: ${{ secrets.PAT_TOKEN }}
          script: |
            const pr = await github.rest.pulls.create({
              owner: 'vllm-project',
              repo: 'vllm-ascend',
              head: `${{ github.actor }}:${{ env.BRANCH_NAME }}`,
              base: '${{ github.event.inputs.vllm-ascend-version }}',
              title: `[Doc] Update accuracy reports for ${{ github.event.inputs.vllm-ascend-version }}`,
              body: `The accuracy results running on NPU Altlas A2 have changed, updating reports for:
            ${{ 
              github.event.inputs.models == 'all' 
                && 'All models (Qwen2.5-7B-Instruct, Qwen2.5-VL-7B-Instruct, Qwen3-8B-Base)' 
                || github.event.inputs.models 
            }}
            - [Workflow run][1]
            [1]: ${{ github.server_url }}/${{ github.repository }}/actions/runs/${{ github.run_id }}`
            });
            core.info(`Created PR #${pr.data.number}`);
--- a/benchmarks/scripts/run_accuracy.py
+++ b/benchmarks/scripts/run_accuracy.py
@@ -31,24 +31,44 @@ UNIMODAL_TASK = ["ceval-valid", "gsm8k"]
 MULTIMODAL_NAME = ["Qwen/Qwen2.5-VL-7B-Instruct"]
 MULTIMODAL_TASK = ["mmmu_val"]
-batch_size_dict = {"ceval-valid": 1, "mmlu": 1, "gsm8k": "auto", "mmmu_val": 1}
+BATCH_SIZE = {"ceval-valid": 1, "mmlu": 1, "gsm8k": "auto", "mmmu_val": 1}
 MODEL_RUN_INFO = {
    "Qwen/Qwen2.5-7B-Instruct":
-    ("export MODEL_ARGS='pretrained={model}, max_model_len=4096,dtype=auto,tensor_parallel_size=2,gpu_memory_utilization=0.6'\n"
+    ("export MODEL_ARGS='pretrained={model},max_model_len=4096,dtype=auto,tensor_parallel_size=2,gpu_memory_utilization=0.6'\n"
     "lm_eval --model vllm --model_args $MODEL_ARGS --tasks {datasets} \ \n"
     "--apply_chat_template --fewshot_as_multiturn --num_fewshot 5 --batch_size 1"
     ),
    "Qwen/Qwen3-8B-Base":
-    ("export MODEL_ARGS='pretrained={model}, max_model_len=4096,dtype=auto,tensor_parallel_size=2,gpu_memory_utilization=0.6'\n"
+    ("export MODEL_ARGS='pretrained={model},max_model_len=4096,dtype=auto,tensor_parallel_size=2,gpu_memory_utilization=0.6'\n"
     "lm_eval --model vllm --model_args $MODEL_ARGS --tasks {datasets} \ \n"
     "--apply_chat_template --fewshot_as_multiturn --num_fewshot 5 --batch_size 1"
     ),
    "Qwen/Qwen2.5-VL-7B-Instruct":
-    ("export MODEL_ARGS='pretrained={model}, max_model_len=8192,dtype=auto,tensor_parallel_size=4,max_images=2'\n"
+    ("export MODEL_ARGS='pretrained={model},max_model_len=8192,dtype=auto,tensor_parallel_size=4,max_images=2'\n"
     "lm_eval --model vllm-vlm --model_args $MODEL_ARGS --tasks {datasets} \ \n"
     "--apply_chat_template --fewshot_as_multiturn  --batch_size 1"),
 }
 FILTER = {
    "gsm8k": "exact_match,flexible-extract",
    "ceval-valid": "acc,none",
    "mmmu_val": "acc,none"
 }
 EXPECTED_VALUE = {
    "Qwen/Qwen2.5-7B-Instruct": {
        "ceval-valid": 0.80,
        "gsm8k": 0.72
    },
    "Qwen/Qwen3-8B-Base": {
        "ceval-valid": 0.82,
        "gsm8k": 0.83
    },
    "Qwen/Qwen2.5-VL-7B-Instruct": {
        "mmmu_val": 0.51
    }
 }
 RTOL = 0.03
 ACCURACY_FLAG = {}
 def run_accuracy_unimodal(queue, model, dataset):
@@ -60,7 +80,7 @@ def run_accuracy_unimodal(queue, model, dataset):
            tasks=dataset,
            apply_chat_template=True,
            fewshot_as_multiturn=True,
-            batch_size=batch_size_dict[dataset],
+            batch_size=BATCH_SIZE[dataset],
            num_fewshot=5,
        )
        print(f"Success: {model} on {dataset}")
@@ -84,7 +104,7 @@ def run_accuracy_multimodal(queue, model, dataset):
            tasks=dataset,
            apply_chat_template=True,
            fewshot_as_multiturn=True,
-            batch_size=batch_size_dict[dataset],
+            batch_size=BATCH_SIZE[dataset],
        )
        print(f"Success: {model} on {dataset}")
        measured_value = results["results"]
@@ -102,25 +122,22 @@ def generate_md(model_name, tasks_list, args, datasets):
    run_cmd = MODEL_RUN_INFO[model_name].format(model=model_name,
                                                datasets=datasets)
    model = model_name.split("/")[1]
-    preamble = f"""# 🎯 {model} Accuracy Test
+    version_info = (
-  <div>
+        f"**vLLM Version**: vLLM: {args.vllm_version} "
-    <strong>vLLM version:</strong> vLLM: {args.vllm_version}, vLLM Ascend: {args.vllm_ascend_version} <br>
+        f"([{args.vllm_commit}]({args.vllm_commit_url})), "
-  </div>
+        f"**vLLM Ascend**: {args.vllm_ascend_version} "
-  <div>
+        f"([{args.vllm_ascend_commit}]({args.vllm_ascend_commit_url}))")
      <strong>Software Environment:</strong> CANN: {args.cann_version}, PyTorch: {args.torch_version}, torch-npu: {args.torch_npu_version} <br>
  </div>
  <div>
      <strong>Hardware Environment</strong>: Atlas A2 Series <br>
  </div>
  <div>
      <strong>Datasets</strong>: {datasets} <br>
  </div>
  <div>
      <strong>Command</strong>: 
-  ```bash
+    preamble = f"""# 🎯 {model}
-  {run_cmd}
+{version_info}
-  ```
+**vLLM Engine**: V{args.vllm_use_v1}  
 **Software Environment**: CANN: {args.cann_version}, PyTorch: {args.torch_version}, torch-npu: {args.torch_npu_version}  
 **Hardware Environment**: Atlas A2 Series  
 **Datasets**: {datasets}  
 **Command**:  
 ```bash
 {run_cmd}
 ```
  </div>
  <div>&nbsp;</div>
  """
@@ -153,11 +170,12 @@ def generate_md(model_name, tasks_list, args, datasets):
                n_shot = "5"
            else:
                n_shot = "0"
            flag = ACCURACY_FLAG.get(task_name, "")
            row = (f"| {task_name:<37} "
                   f"| {flt:<6} "
                   f"| {n_shot:6} "
                   f"| {metric:<6} "
-                   f"| ↑ {value:>5.4f} "
+                   f"| {flag}{value:>5.4f} "
                   f"| ± {stderr:>5.4f} |")
            if not task_name.startswith("-"):
                rows.append(row)
@@ -187,6 +205,7 @@ def main(args):
    if args.model in UNIMODAL_MODEL_NAME:
        datasets = ",".join(UNIMODAL_TASK)
        for dataset in UNIMODAL_TASK:
            accuracy_expected = EXPECTED_VALUE[args.model][dataset]
            p = multiprocessing.Process(target=run_accuracy_unimodal,
                                        args=(result_queue, args.model,
                                              dataset))
@@ -194,10 +213,16 @@ def main(args):
            p.join()
            result = result_queue.get()
            print(result)
            if accuracy_expected - RTOL < result[dataset][
                    FILTER[dataset]] < accuracy_expected + RTOL:
                ACCURACY_FLAG[dataset] = "✅"
            else:
                ACCURACY_FLAG[dataset] = "❌"
            accuracy[args.model].append(result)
    if args.model in MULTIMODAL_NAME:
        datasets = ",".join(MULTIMODAL_TASK)
        for dataset in MULTIMODAL_TASK:
            accuracy_expected = EXPECTED_VALUE[args.model][dataset]
            p = multiprocessing.Process(target=run_accuracy_multimodal,
                                        args=(result_queue, args.model,
                                              dataset))
@@ -205,12 +230,18 @@ def main(args):
            p.join()
            result = result_queue.get()
            print(result)
            if accuracy_expected - RTOL < result[dataset][
                    FILTER[dataset]] < accuracy_expected + RTOL:
                ACCURACY_FLAG[dataset] = "✅"
            else:
                ACCURACY_FLAG[dataset] = "❌"
            accuracy[args.model].append(result)
    print(accuracy)
    safe_md(args, accuracy, datasets)
 if __name__ == "__main__":
    multiprocessing.set_start_method('spawn', force=True)
    parser = argparse.ArgumentParser()
    parser.add_argument("--output", type=str, required=True)
    parser.add_argument("--model", type=str, required=True)
@@ -219,8 +250,12 @@ if __name__ == "__main__":
    parser.add_argument("--torch_npu_version", type=str, required=False)
    parser.add_argument("--vllm_version", type=str, required=False)
    parser.add_argument("--cann_version", type=str, required=False)
    parser.add_argument("--vllm_commit", type=lambda s: s[:7], required=False)
    parser.add_argument("--vllm_commit_url", type=str, required=False)
    parser.add_argument("--vllm_ascend_commit",
                        type=lambda s: s[:7],
                        required=False)
    parser.add_argument("--vllm_ascend_commit_url", type=str, required=False)
    parser.add_argument("--vllm_use_v1", type=str, required=False)
    args = parser.parse_args()
    # TODO(yikun):
    # 1. add a exit 1 if accuracy is not as expected
    # 2. Add ✅, ❌ to markdown if accuracy is not as expected
    main(args)