diff --git a/.github/workflows/nightly-test-amd.yml b/.github/workflows/nightly-test-amd.yml
index 24787d1ff..5ea64f874 100644
--- a/.github/workflows/nightly-test-amd.yml
+++ b/.github/workflows/nightly-test-amd.yml
@@ -47,6 +47,7 @@ jobs:
 
           docker exec -w / ci_sglang git clone https://github.com/merrymercy/human-eval.git
           docker exec -w /human-eval ci_sglang pip install -e .
+          docker exec ci_sglang pip install huggingface_hub[hf_xet]
 
       - name: Nightly Test
         run: |
diff --git a/test/srt/test_nightly_gsm8k_eval_amd.py b/test/srt/test_nightly_gsm8k_eval_amd.py
index bdb6babbd..3d70df746 100644
--- a/test/srt/test_nightly_gsm8k_eval_amd.py
+++ b/test/srt/test_nightly_gsm8k_eval_amd.py
@@ -24,12 +24,12 @@ MODEL_SCORE_THRESHOLDS = {
     "mistralai/Mistral-7B-Instruct-v0.3": 0.56,
     "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct": 0.85,
     "meta-llama/Llama-3.1-70B-Instruct": 0.95,
-    "mistralai/Mixtral-8x7B-Instruct-v0.1": 0.64,
+    "mistralai/Mixtral-8x7B-Instruct-v0.1": 0.62,
     "Qwen/Qwen2-57B-A14B-Instruct": 0.86,
     "neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8": 0.81,
     "neuralmagic/Mistral-7B-Instruct-v0.3-FP8": 0.54,
-    "neuralmagic/Meta-Llama-3.1-70B-Instruct-FP8": 0.94,
-    "neuralmagic/Qwen2-72B-Instruct-FP8": 0.94,
+    "neuralmagic/Meta-Llama-3.1-70B-Instruct-FP8": 0.93,
+    "neuralmagic/Qwen2-72B-Instruct-FP8": 0.93,
     "neuralmagic/Qwen2-57B-A14B-Instruct-FP8": 0.82,
 }