diff --git a/benchmark/mmlu/README.md b/benchmark/mmlu/README.md
index 25553ab4d..3bc1fa439 100644
--- a/benchmark/mmlu/README.md
+++ b/benchmark/mmlu/README.md
@@ -15,6 +15,10 @@ python -m sglang.launch_server --model-path meta-llama/Llama-2-7b-chat-hf --port
 python3 bench_sglang.py --nsub 10
 ```
 
+```
+# OpenAI models
+python3 bench_sglang.py --backend gpt-3.5-turbo --parallel 8
+```
 
 ### Benchmark vllm
 ```
diff --git a/benchmark/mmlu/bench_sglang.py b/benchmark/mmlu/bench_sglang.py
index 543b4ad61..83b36276c 100644
--- a/benchmark/mmlu/bench_sglang.py
+++ b/benchmark/mmlu/bench_sglang.py
@@ -64,10 +64,16 @@ def evaluate(args, subject, dev_df, test_df):
     #####################################
 
     import sglang as sgl
-    
-    @sgl.function
-    def few_shot_mmlu(s, examples, question):
-        s += examples + question + sgl.gen("answer")
+
+    if args.backend.startswith("gpt-"):
+        @sgl.function
+        def few_shot_mmlu(s, examples, question):
+            s += sgl.user(examples + question)
+            s += sgl.assistant(sgl.gen("answer"))
+    else:
+        @sgl.function
+        def few_shot_mmlu(s, examples, question):
+            s += examples + question + sgl.gen("answer")
 
     #####################################
     ########## SGL Program End ##########
diff --git a/python/sglang/test/test_utils.py b/python/sglang/test/test_utils.py
index 80d25e1a8..beddd6255 100644
--- a/python/sglang/test/test_utils.py
+++ b/python/sglang/test/test_utils.py
@@ -155,7 +155,7 @@ def select_sglang_backend(args):
             global_config.enable_parallel_decoding = False
             global_config.enable_parallel_encoding = False
         backend = RuntimeEndpoint(f"{args.host}:{args.port}")
-    elif args.backend.startswith("gpt"):
+    elif args.backend.startswith("gpt-"):
         backend = OpenAI(args.backend)
     else:
         raise ValueError(f"Invalid backend: {args.backend}")