Update vllm to 0.6.3 (#1711) (#1720)

Co-authored-by: Ke Bao <ISPObaoke@163.com>
2024-10-19 20:45:41 -07:00
parent 12cad0feae
commit 8bee20f80b
9 changed files with 133 additions and 76 deletions
--- a/python/sglang/srt/utils.py
+++ b/python/sglang/srt/utils.py
@@ -215,6 +215,26 @@ def is_multimodal_model(model_architectures):
        return False


+def is_attention_free_model(model_architectures):
+    return False
+
+
+def model_has_inner_state(model_architectures):
+    return False
+
+
+def is_embedding_model(model_architectures):
+    if (
+        "LlamaEmbeddingModel" in model_architectures
+        or "MistralModel" in model_architectures
+        or "LlamaForSequenceClassification" in model_architectures
+        or "LlamaForSequenceClassificationWithNormal_Weights" in model_architectures
+    ):
+        return True
+    else:
+        return False
+
+
 def is_generation_model(model_architectures, is_embedding: bool = False):
    # We have two ways to determine whether a model is a generative model.
    # 1. Check the model architectue