[feat] Support session control for vision language models (#2210)

2024-11-27 00:03:29 -08:00
parent c754652fcd
commit 37c8a5761f
7 changed files with 265 additions and 21 deletions
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -559,12 +559,13 @@ class Scheduler:

        # Image inputs
        if recv_req.image_inputs is not None:
-            req.image_inputs = ImageInputs.from_dict(
+            image_inputs = ImageInputs.from_dict(
                recv_req.image_inputs, self.model_config.vocab_size
            )
            req.origin_input_ids = self.pad_input_ids_func(
-                req.origin_input_ids_unpadded, req.image_inputs
+                req.origin_input_ids, image_inputs
            )
+            req.extend_image_inputs(image_inputs, self.model_config.vocab_size)

            if len(req.origin_input_ids) > self.max_req_input_len:
                req.finished_reason = FINISH_ABORT(