Higher priority for user input of max_prefill_tokens & format (#540)

2024-06-12 21:48:40 -07:00
parent 1374334d38
commit fb9296f0ed
50 changed files with 817 additions and 569 deletions
--- a/python/sglang/srt/models/llava.py
+++ b/python/sglang/srt/models/llava.py
@@ -1,11 +1,17 @@
 """Inference-only LLaVa model compatible with HuggingFace weights."""

-from typing import List, Iterable, Optional, Tuple
+from typing import Iterable, List, Optional, Tuple

 import numpy as np
 import torch
 from torch import nn
-from transformers import CLIPVisionModel, CLIPVisionConfig, LlavaConfig, Qwen2Config, MistralConfig 
+from transformers import (
+    CLIPVisionConfig,
+    CLIPVisionModel,
+    LlavaConfig,
+    MistralConfig,
+    Qwen2Config,
+)
 from transformers.models.llava.modeling_llava import LlavaMultiModalProjector
 from vllm.config import CacheConfig
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
@@ -19,8 +25,8 @@ from sglang.srt.mm_utils import (
    unpad_image_shape,
 )
 from sglang.srt.models.llama2 import LlamaForCausalLM
-from sglang.srt.models.qwen2 import Qwen2ForCausalLM
 from sglang.srt.models.mistral import MistralForCausalLM
+from sglang.srt.models.qwen2 import Qwen2ForCausalLM


 class LlavaLlamaForCausalLM(nn.Module):
@@ -359,6 +365,7 @@ class LlavaMistralForCausalLM(LlavaLlamaForCausalLM):

 first_call = True

+
 def clip_vision_embed_forward(self, pixel_values: torch.FloatTensor) -> torch.Tensor:
    batch_size = pixel_values.shape[0]

@@ -388,8 +395,4 @@ def monkey_path_clip_vision_embed_forward():
    )


-EntryClass = [
-    LlavaLlamaForCausalLM, 
-    LlavaQwenForCausalLM,
-    LlavaMistralForCausalLM
-]
+EntryClass = [LlavaLlamaForCausalLM, LlavaQwenForCausalLM, LlavaMistralForCausalLM]