2x performance improvement for large prefill & Fix workspace conflicts (#579)

2024-07-03 16:14:57 -07:00
parent 96c503eb60
commit 2a754e57b0
6 changed files with 88 additions and 25 deletions
--- a/docs/test_process.md
+++ b/docs/test_process.md
@@ -1,8 +1,18 @@
 ## SRT Unit Tests

 ### Latency Alignment
+Make sure your changes do not slow down the following benchmarks
 ```
+# single gpu
 python -m sglang.bench_latency --model-path meta-llama/Llama-2-7b-chat-hf --mem-fraction-static 0.8 --batch 32 --input-len 512 --output-len 256
+python -m sglang.bench_latency --model-path meta-llama/Llama-2-7b-chat-hf --mem-fraction-static 0.8 --batch 1 --input-len 512 --output-len 256
+
+# multiple gpu
+python -m sglang.bench_latency --model-path meta-llama/Meta-Llama-3-70B --tp 8 --mem-fraction-static 0.6 --batch 32 --input-len 8192 --output-len 1
+python -m sglang.bench_latency --model-path meta-llama/Meta-Llama-3-70B --tp 8 --mem-fraction-static 0.6 --batch 1 --input-len 8100 --output-len 32
+
+# moe model
+python -m sglang.bench_latency --model-path databricks/dbrx-base --tp 8 --mem-fraction-static 0.6 --batch 4 --input-len 1024 --output-len 32
 ```

 ### High-level API