use sgl-kernel moe_align_block_size (#2581)

Co-authored-by: ispobock <ispobaoke@163.com> Co-authored-by: HandH1998 <1335248067@qq.com>
2024-12-26 06:29:08 +08:00
parent d7c0e872b0
commit 60e2fdcf4f
3 changed files with 28 additions and 5 deletions
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -21,9 +21,9 @@ runtime_common = ["aiohttp", "decord", "fastapi",
    "orjson", "outlines>=0.0.44,<0.1.0",
    "packaging", "pillow", "prometheus-client>=0.20.0",
    "psutil", "pydantic", "python-multipart",
-    "pyzmq>=25.1.2", "torchao>=0.7.0", "gemlite", "uvicorn", "uvloop",
+    "pyzmq>=25.1.2", "torchao>=0.7.0", "uvicorn", "uvloop",
    "xgrammar>=0.1.6"]
-srt = ["sglang[runtime_common]", "torch", "vllm>=0.6.3.post1,<=0.6.4.post1", "cuda-python", "flashinfer==0.1.6"]
+srt = ["sglang[runtime_common]", "torch", "vllm>=0.6.3.post1,<=0.6.4.post1", "cuda-python", "flashinfer==0.1.6", "sgl-kernel"]

 # HIP (Heterogeneous-computing Interface for Portability) for AMD
 # => base docker rocm/vllm-dev:20241022, not from public vllm whl